清华 大 学 出 版 社 


M 
8 
ra 
38 
È 
IK 
要 
E 
Β΄ 
m 


Ξ 
R 
ig 
τς 
ES 
ΞΞ 
RN 
un 
< 
un 


高 等 院 校 信息 技术 规划 教材 


SAS 数据 挖掘 与 分 析 


A R REAA 阮 桂 海 编著 


清华 大 学 出 版 社 
db π 


内 容 简 介 


45 ΒΕ} ΒΕΒ Γ SAS 编程 方面 极为 详尽 的 命令 语句 ,是 数据 的 科学 挖掘 和 统计 分 析 方 面 的 一 本 不 可 
多 得 的 教科 书 。 

本 书 的 前 8 章 介 绍 了 数据 挖掘 和 统计 分 析 所 用 的 各 类 命令 语句 ,第 9 一 17 章 着 重 介绍 如 何 用 命令 
语句 及 其 对 话 框 进行 常用 的 初 高 级 统计 和 专业 统计 ,并 对 统计 结果 进行 了 科学 准确 的 分 析 。 

本 书面 向 全 国 高 校 统 计 学 、 医 学 ,心理 学 .市场 营销 学 .人文 社会 学 .信息 管理 学 及 财经 学 等 专业 的 
本 科 生 和 研究 生 ,可 作为 这 些 专业 及 其 他 非 计 算 机 专业 学 生 必 选 的 统计 教材 ,也 是 数据 挖掘 和 信息 分 
析 方 面 的 利器 。 
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在 市 场 经 济 充满 着 激烈 竞争 的 今天 ,统计 学 中 的 热门 话题 之 一 
是 数据 挖掘 问题 。 数 据 挖掘 是 一 个 机 遇 , 也 是 一 个 挑战 。 其 实 , 我 
们 每 位 统计 人 员 , 经 常 在 做 数据 挖掘 工作 ,只 是 没有 专门 留意 罢了 。 
数据 挖掘 是 从 数据 仓库 中 发 掘 那些 潜在 的 、 鲜 为 人 知 的 数据 规律 和 
数理 模式 ,其 目的 是 在 过 去 的 经 验 基 础 上 预测 未 来 的 发 展 趋势 。 例 
如 ,线性 回归 (linear regression) 等 用 于 预测 未 来 ,线性 判别 分 析 
(linear discriminate analysis) 技 术 用 于 数据 分 类 , 非 线 性 回归 技术 
等 用 于 估 值 和 抽样 ,从 而 提高 市 场 的 决策 能 力 和 成 功 几 率 。SAS 
(statistical analysis system) 的 统计 方法 海纳百川 ,其 输出 结果 科学 
清晰 ,图 形 报表 丰富 多 彩 。 而 且 SAS 9.0 以 上 版 本 , 比 以 前 的 纯 英 
X SAS 软件 ,其 界面 更 加 友好 ,功能 更 加 强大 ,是 数据 挖掘 和 数据 统 
计 分 析 的 锐利 武器 。 

一 旦 掌握 了 SAS 和 SPSS 两 种 知识 ,数据 挖掘 和 统计 分 析 的 
一 切 问 题 就 能 迎刃而解 ,社会 统计 学 专业 的 学 生 才 算 长 齐 了 双 
翅 。 为 此 ,我 们 特地 新 编 了 本 书 《 统 计 分 析 应 用 教程 》CISBN: 
9787302065975) 和 《SAS 统计 分 析 实 用 大 全 》(ISBN: 
9787302064169) 系 列 教材 。 前 二 者 是 “姊妹 篇 ”", 构 成 了 普通 高 
等 教育 “十 一 五 ?规划 教材 (社会 统计 分 析 一 一 SAS 应 用 教程 》。 
这 三 本 系列 教材 所 介绍 的 知识 与 技术 ,具有 很 强 的 互补 性 , 既 体 
现 了 教材 的 多 样 性 承前启后 性 ,又 适应 了 不 同 层 次 不 同类 型 
读者 的 需求 ,对 课题 研究 及 数据 挖掘 与 分 析 将 会 黄 定 良好 的 
基础 。 

上 面 所 提 及 的 三 本 书 中 的 实用 程序 \ 数据 和 习题 参考 答案 ,可 
从 清华 大 学 出 版 社 的 网 站 下 载 , 网 址 为 www. tup. tsinghua. com. 
cn。 如 果 难 于 下 载 可 与 清华 大 学 出 版 社 的 客户 服务 联系 ,电话 是 
010-62770175-4608 。 
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2*2 48 Logistic Regression 模型 


2 * 2 4 Logistic Regression 的 变量 及 其 数据 ee 8 
用 “分 析 家 ”对 话 框 进行 2*2 维 Logistic 回归 ένεκεν νεεέννς 5 


2*2 维 Logistic 回归 分 析 m 
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SAS 编程 的 语法 知识 


单 击 SAS 对 话 框 虽然 可 以 进行 统计 分 析 , 但 通过 用 SAS 的 命令 语句 来 编程 ,然后 运 
行程 序 则 更 胜 一 筹 。 为 此 ,本 章 着 重 介 绍 SAS 的 语法 知识 。 
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1. 发 展 史 


1966 年 美国 North Carolina 州立 大 学 开始 研发 SAS,1976 年 成 立 了 SAS 研究 所 ， 
1985 年 SAS 从 大 型 机 移植 到 计算 机 上 。 现 在 ,SAS 和 SPSSCStatistical Package for 
Social Science, 社 会 科学 统计 软件 包 ) 成 了 数据 挖掘 和 数据 统计 分 析 的 利 剑 。 


2. SAS 的 特色 


(1) 数据 兼容 性 强 。 

(2) 编程 语言 丰富 : 有 100 多 种 运算 函数 (语句 ) ,其 中 有 : 

算术 运算 符 : 十 一 */ 及 x*x， 

逻辑 操作 符 : AND.OR.NOT; 

赋值 语句 : Z 一 X+TY; 

条 件 语句 : IF ΤΗΕΝ/ΕΙ ΡΕ: 

数组 语句 : ARRAY…; 

循环 语句 : DO…END。 

(3) 能 连 读 及 处 理 多 个 数据 集 : 可 从 各 个 数据 集 里 合并 观测 值 (OBS: 个 案 ) ,还 能 组 
合 变量 和 建立 子 集 ; 能 处 理 多 个 输入 文件 。 可 存储 会 话 结果 和 中 间 结 果 。 

(4) 统计 方法 海纳百川 。 

(5) 强大 的 宏 ( 代 换 ) 功 能 : 大 大 简化 了 编程 。 

(6) 计算 的 精度 达到 小 数 点 后 11 位 。 

下 面 列举 一 个 最 简单 的 SAS 程序 (结构 )。 

程序 1.1: 


/* F 1.1: * / 


δι κας 4 d 


SEV IAV ΜΕΣ) SOW ΦΟΡ 


DATA 511; 
INPUT vl v288; 

yearzvawl2; 
01 2500 02 3000 09 2800 04 3300 


OaS- (无 标题 ) | 因 程 序 编辑 器 - 程序 1. !| 
E 


图 1.1 最 简单 的 SAS 程序 
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1. 观测 值 


份 问卷 、 一 个 单一 的 整体 .一 个 人 、 一 个 被 测 对 象 就 是 一 个 观测 值 C(OBS) 或 称 一 个 
“个 案 ”。 每 个 个 案 是 由 若干 变量 组 成 。 


2. 变量 
一 份 问卷 一 般 有 几 个 甚至 几 十 个 问答 题 ,一 个 问答 题 就 是 一 个 变量 (Variable) AH 


_id .sex.age.income 等 。 

(1) 变量 名 : 由 1 一 8 个 有 效 字 符 组 成 且 字 母 领头 ,后 跟 数 字 或 有 效 的 字母 。 但 字母 
@@,#,$,%, 所.,* 等 是 无 效 的 字符 。 如 sex,age,vl,location，ab_ 等 变量 名 是 正 
确 的 。 

(2) 无 效 的 变量 名 : lage.lv.location1. (21. 31.961. 6.2 等 变量 名 是 无 效 的 。 


πο 


(9) SAS 内 部 特殊 的 变量 名 : 


(4) 变量 的 类 型 : 有 以 下 两 种 。 

数字 型 : 如 INPUT id sex age: 

字符 型 : 如 “INPUT id sex $ age;” 中 的 “sex $ ”表示 性 别 是 以 m= 二 男性 ,f= 女性 
表示 。 

(9) 变量 赋值 的 特点 : 首次 定义 的 长 度 一 直 有 效 到 定义 另外 一 种 长 度 。 见 程序 1. 2。 

程序 1.2: 


DATA P; /x* 将 此 次 DATA 步 处 理 的 数据 存 和 人 woRK.p 数 据 集 (工作 文件 ) 中 * / 
x- 'MAIE'; /* 首次 给 变量 x 赋予 4 个 字符 的 长 度 * / 

PUT x; /* 在 IoG 窗 口 则 输出 变量 x 的 值 为 4 个 字符 的 长 度 , 即 MarE* / 
x- 'FEMAIE'; /* 以 后 ,变量 x 虽然 输入 6 个 字符 但 只 保留 原来 的 长 度 a / 

PUT x; /* 以 后 ,变量 x 就 按照 原来 的 长 度 4 被 记忆 下 来 ,因此 此 时 的 变量 

x 的 值 被 截取 为 FEMA / 
FUN; 
运行 程序 1. 2 产生 图 1. 2 所 示 的 结果 ( 见 “ 日 志 ” 窗 口 )。 


T. SAS [- [κ] 
文件 (E) ΜΔΕ ETV IAD PASEO 窗口 (Ww) MHW 
eA I AEA A TESA 


E nnn 


DATA P; /* 将 此 次 pkATA 步 处 理 的 数据 存 入 uoRK.p 数 据 提 (工作 文件 ) 中 */ 
X=' MALE' ;/* 首 次 给 变量 x 赋 于 4 个 字符 的 长 度 */ 
PUT x; / *TELOGE ΓΙ MA 1 2E Rc 055 ( 263 4^ ΞΕ 08 0 Et, pou " 
Xe FEMALE! ;/* y 3ESE Gi Si e EID On Gg CORE BS E Dra 


PUT x; V* 以 后 ,变量 x 就 护照 原来 的 长 度 4 被 记忆 下 来 ， Επ πο ο "FEMA", 


《无 标题 1 


日 志 


8 m Ae m 

» E. FEMALE"; RUE s FER 

11 1 AUS, 变量 > 就 按照 原来 的 长 度 4 证 记忆 下 来 ,因此 此 时 的 变量 > 的 值 被 专职 为 "FEMA“#/ 
" RUN; 

MALE 

Me: 数据 集 W0RK.P 有 1 个 观测 和 1 TER. 


可 


国 输出 -〈 无 标题 ) ΠΕΊΗ͂ἥΕ- 《无 标题 .图 程序 1.2.sas 


ore: 首 行 。 


1.2 “日 志 ” 窗 口 的 结果 


(6) 变量 的 缺失 值 。 
凡是 被 访 对 象 不 答 或 漏 答 的 数字 型 变量 值 要 输入 “.”, 字 符 型 变量 值 要 输入 一 
格 “”。 见 程序 1. 3。 


δι κας £d 


程序 1.8: 


DATA 515; 
INEUT vl v2 0G ; 
year- v2* 12; 
CARDS; 
O1 2500 02 3000 03 2800 04 3300 05 . 
F 
PROC PRINT; 
RUN; 


运行 程序 1. 3 产生 图 1. 3 所 示 的 结果 ( 见 “ 输 出 ”窗口 )。 


IREO WAE 查看 (Y) IAD 运行 (8) 解决 方案 (5) 窗口 (W) EHD 


Pi 程序 1.3.sas 
EDATA 532; 
INPUT vi v2 88; 
year-v2*12; 
CARDS; 
O1 2500 02 3000 03 2800 04 3300 OS . 


BPROC PRINT; 


出 
DAH- (TM) ΤΕ 日 志 -无 标题 〉 | 园 程序 1.3.sas | 回程 序 Lasas 国 程序 编辑 器 - 〈 


| C:\Documents and Settings\Rai Ln 9, Col 1 


1.3 运行 程序 1.3 产生 的 结果 


3. 常量 


常量 可 用 于 IF .SELECT 、 RETURN, PUT, ERROR 等 语句 中 ,还 用 于 赋值 及 求 和 。 
常量 有 以 下 3 种 语句 : 

CD 数值 常量 : 有 整数 .小 数 、 科 学 记 数 法 。 例 如 1. 288E 一 8( 相 当 于 1.288 * 1073). 

(2) 字符 常量 : 可 由 1 一 200 个 字符 组 成 。 例 如 Zhangsan,Lisiguang。 

(3) 日 期 时间、 日 期 时 间 常 量 : 用 一 对 单 撤 号 (或 单 引 号 ) 括 起 来 ,后 跟 一 个 日 期 的 
字母 。 如 

'20060CT10'D 

*12:00'T 

'12:00:18'T 

*100c2006:12:00:18'DT 


其 中 ,IT 表示 Time( 即 时 间 ).D 表示 Date( 即 日 期 ) 。 


ge somiem 
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操作 符 用 于 进行 算术 运算 、 比 较 判 断 ` 逻辑 操作 的 指令 。 

. 算术 运算 符 
算术 运算 符 按 运算 的 优先 顺序 有 : ** ( 乘 方 )\* /( 乘 或 除 )、 十 一 (加 或 减 ) 。 
2. 关系 运算 符 


关系 运算 符 有 : EQ( 或 = )、 par ..᾽ GE( 二 一)、GT( 或 二 )、LE( 或 二 一)、LT 
(或 二 ) 。 它 们 被 用 于 关系 表达 式 中 ， 达 式 为 真 时 输出 1, 当 表达 式 为 假 时 输出 0 
程序 1.4: 


DATA 513; 
INFUT id month 668 ; 
Year=monthx 12; 
IF year« 36000 THEN C= 1;ELSE c- 2; 
CARDS; 
O1 2500 02 3000 03 2800 04 3300 05. 


IRD 解决 方案 (S) FOW 
Dx B e Bas 


LETEEEE M 


1.4 运行 程序 1.4 产 生 的 结果 ( 见 “ 输 出 ”窗口 ) 


δικά: cd 


3. 逻辑 运算 符 
逻辑 运算 符 也 称 为 布尔 运算 符 。 它 有 以 下 3 种 运算 符 : 
AND(&) .OR(C|) NOT( 一 ) 。 


例如 IF v1—7v2 AND v2>0 THEN C+1; 
IF vl>v2 OR v2>0 THEN C 十 5; 


程序 1. 4a: 

DATA sj3; 

INEUT vl v2@@ ; 

IF vl» v2 AND v2» 0 THEN Ch 1; /* 如 果 vi» v2 H. v2>0 则 ci- 1; κ / 

IF vl» v2 OR v2» 0 THEN C2+ 5; /* 如 果 vi» v2sX v20 WJ C2-5; κ / 

IF vl» v2 CR vi— — 0 THEN C3+ 15; /* 如 果 vi» νο vi AE T oll] c3-15* / 
IF— vl» v2 OR— vi— — 0 THEN C4* 100; /* 如 果 不 是 vi» v2sk vir T Oll ca-100* / 
zl= 3»«4); /* 用 操作 符 MIN 或 >< 取 其 中 的 最 小 值 * / 
z2- (3«24); /* 用 操作 符 Mx 或 <> 取 其 中 的 最 大 值 * / 
CARDS; 


2500 3000 2800 3300 


T SAS om 
文件 (E) ”编辑 (E) EW IAD 解决 方案 (8) ”窗口 (WD "EBD 
D x Eb & à Wa DE| 


ΕΙ ΣΝ 


17:09 Saturday, July 15, 2 


z τ 


1.5 程序 1.4a 运行 的 结果 


4. 最 大 值 最 小 值 的 操作 符 


COD 用 操作 符 ΜΙΝ 或 二 二 取 其 中 的 最 小 值 。 例 如 z1 王 (3 二 一 4); 
(2) 用 操作 符 MAX 或 过 二 取 其 中 的 最 大 值 。 例 如 z2 一 (3 一 二 4); 
见 程序 1. 4a。 


ss ss 编程 的 证 法 知识 。 7 


5. 数字 转 为 字符 


SAS 会 自动 将 数字 转 为 字符 。 见 程序 1. 4b。 
程序 1. 4b: 


DATA sj4; 
v= '4'; 
νο- "6; 
Y- vlt v2; 
CARDS; 
PROC PRINT; 
VAR Y; 
RUN; /* ff ih y v-10* / 
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SAS 编程 时 常用 的 变量 表示 法 见 表 1. 1, 程 序 的 核心 语句 见 表 1. 2. 程 序 中 的 操作 指 
令 见 表 1. 3 ,循环 控制 语句 见 表 1.4. 
表 1.1 变量 表示 法 


变 量 表 缩 写 含 x 
vl v2 v3 v4 vl— v4 从 vl 至 v4 四 个 变量 
(3 * 2.) 表 示 共 有 三 个 变量 ,每 个 变量 值 有 两 


vl 1—2 v2 3—4 v3 5 一 6 | (v1— v3) (3 * 2.) 位 数据 


v11—2 v2 3—4 v3 5—6. | (v1—v3X(2. 2. 2.) 表示 共有 三 个 变量 ,每 个 变量 值 有 两 位 数据 


_NUMERIC - 所 有 数字 型 变量 
SAS 特殊 名 称 _CHARACTER_ 所 有 字符 型 变量 

_ALL_ 所 有 变量 

X-A 从 x 到 a 的 所 有 变量 
XPA* X-NUMERIC-A 从 x 到 a 的 所 有 数字 型 变量 


X-CHARACTER-A 从 x 到 a 的 所 有 字符 型 变量 


表 1.2 程序 的 核心 语句 


语 ^j 操作 目的 
DATA dl; 新 建 一 个 数据 集 work. d1 
INFILE='d:\myl1. txt'; 外 调 D 盘 根 目 录 中 的 myl. txt 文本 数据 文件 
INPUT v1 一 v3 (3 * 2.5; 定义 三 个 数字 型 变量 .每 个 变量 的 值 有 两 位 


CARDS; 宣告 读 取 下 面 各行 的 数据 
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S 
语 ^ 操作 目的 
78 88 89 98 99 87 成 百 上 千 的 数据 行 
结束 数据 行 。SAS 每 条 语句 结束 时 也 用 英文 分 号 ";" 
DATA d2; 又 准备 创建 一 个 数据 集 叫 work. d2 
SET dl; work. d2 数据 集 是 从 数据 集 work. dl 复制 来 的 
MERGE dl d2; 横向 合并 两 个 数据 集 .变量 可 能 增加 了 ,但 个 案 数 目 不 变 
UPDATE 用 一 个 数据 集 的 数据 项 更 新 另 一 个 数据 集 的 数据 项 
PROC FREQ;TABLE vl; 用 具体 的 统计 过 程 对 变量 值 进 行 统计 或 描述 
PROC PRINT; 将 结果 显示 在 SAS 的 输出 窗口 
表 1.3 程序 中 的 操作 指令 
语 ^ 作 用 
Α-1; 赋值 
X=a+b; 累加 
IF 表达 式 ; 仅 处 理 满足 表达 式 条 件 的 个 案 。 例 如 IF sex—1 THEN c=1; 
DELETE v; 删除 v 变量 
MISSING a; 遇 到 字符 a 便 视 为 缺失 值 
OUTPUT OUT-cl; 输出 数据 集 存 入 cl 文件 
STOP 中 断 程 序 的 执行 


表 1.4 循环 控制 语句 


语 ^ 作 用 
IF sex—2 THEN height * 1. 1; 对 女性 的 身高 赋予 1. 1 的 权重 ， 
ELSE height 一 height; 否则 就 保留 原 值 
GOTO Οκ: 跳 转 到 OK 语句 上 执行 指令 ， 
DO 外 循环 开始 . 
DO 内 循环 开始 ， 
END; 内 循环 结束 ， 
END; 外 循环 结束 


临时 跳 到 LINK 记号 处 , 遇 到 RETURN 语句 则 返回 


ΡΕ LINK 处 并 执行 其 下 一 语句 


i 执行 i 的 语 或 站 行 
RETURN 返回 到 DATA 步 执行 下 面 的 语句 ,或 返回 LINK 处 并 执行 
其 下 一 语句 


例 1: GOTO…RETURN 语句 组 将 “RETURN”( 返 回 ) 到 DATA 步 执 行 它 下 面 的 语 
句 。 见 程序 1. 5。 
程序 1.5: 
DATA 515; 
INHTabcGG:; 
IF 4— « a THEN GOTO OK; 


a3; 
COUNT+ 1; 
RETURN; — /* RETURN( 返 回 ) 到 DATA JE A £3 È F ΠΠ fiin 
Ok:SUMat a; 
CARDS; 


3 6 9 10 22 15 12 10 14 


XFO REO EEV IAV ZIY 解决 方案 G) SOW «VR 00 


a b c 00; 
IF 4=<a THEN GOTO OK; 


UNT: 
h^ /W"RETURN" C 返回 ) 到 DATA 步 执行 它 下 面 的 语句 。*/ 
Maa: 


CARDS; 

2 69 10 22 15 12 10 14 
[PROC PRINT; 

RUN; 
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14:00 Tuesday, November 12, 2002 37 [øl 
SUMs 


0 
10 
22 


zx 
国 输 出 - (无 标题 ) |555- (无 标题 ) [2] 程序 编辑 器 - WM 


ERU εαν 


1.6 GOTO-- RETURN 语句 的 输出 


例 2: LINK…RETURN 语句 组 将 返回 到 LINK 处 并 执行 其 下 一 语句 。 有 多 条 
LINK…RETURN 语句 , 则 返回 到 最 后 执行 的 LINK 语句 的 下 一 条 上 。 见 程序 1.6. 


程序 1. 6: 将 两 次 成 绩 中 的 D 等 成 绩 升 为 C 等 。 


DATA score; 

INEUTidtestl$ test2$ Q8 ; 
test- testl1;LINK RECODE; 

test- test2; LINK RECODE; 
RETURN; 

RECODE:IF TEST- 'd' THEN TEST- 'c'; 
RETURN; 

CARDS; 

0lbc02cd03acad 
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donnus £d 


输出 — 《无 标题 > 


日 程序 编辑 器 《无 标题 》 


þar. 


ΓΑ κ 
NPUDid testi ο test2 
tost-tostl;LINK RECODE; 


testntest2;LINK RECODE; 


图 1.7 HH LINK-- RETURN 语句 的 输出 结果 


从 图 1.7 可 以 看 出 ,LINK…RETURN 语句 将 返回 到 LINK 处 并 执行 其 下 一 语句 ， 
直到 将 两 次 成 绩 中 的 D 等 成 绩 升 为 C 等 为 止 。 


SAS 的 管理 语句 见 表 1.5. 


语 "8 


表 1.5 SAS 的 管理 语句 


作 用 


ARRAY 数组 名 [n] [C$] 
[长 度 ] [数组 元 素 ] 


数组 名 不 仅 是 变量 名 ,而且 是 有 效 的 名 称 ,n 为 下 标 、 


示 字 符 型 变量 ,例如 : 
ARRAY ab[2] vl v2; 


$K 


ATTRIB 指出 变量 的 属性 

BY vi 定义 分 组 变量 v 

DROP vl: 删除 νι 变量 

KEEP v2 v3; 数据 集 里 保留 v2 和 v3 变量 
INFORMAT 变量 的 输入 格式 

FORMAT sex $; 变量 的 输出 格式 

LABEL sex 一 性 别 '; 变量 标签 

VALUE sex 1 一 男 '2 一 安 ' 数值 标签 

LENGTH name $ 15.3 变量 的 长 度 为 15 列 字 符 型 
RENAME 改变 变量 名 


RETIAN SUM-—0; 


初始 化 变量 SUM 值 为 0 


πα ο — τι 


管理 语句 的 例子 见 程序 1.7. 
程序 1.7: 


DATA array; 

INPUT al- ας bl- b6 ; 

ARRAY test [8] al- a4 bl- b4 ; 

EUT test [4]= test[5]=;  /* 日 志 窗 口 显示 aa 和 bl 的 值 */ 
CARDS; 

123456101102 103 104 105 106 

11 12 13 14 15 16 111 112 113 114 115 116 


PROC PRINT; /* 显示 al 3 b6 的 值 * / 


运行 程序 1.7 产生 图 1. 8 所 示 的 “日 志 ” 窗 口 。 


πα) RED EEV IAD MASE SOW 48500 


ARRAY test G En 说 bibi; 
678 PUT test [4]= [δ]: 
77 CARDS; 


CERE m m D 


on 


1.8 使 用 数组 的 技巧 


从 图 1.8 的 “日 志 ” 窗 口 可 以 看 出 ,确实 输出 了 a4 和 bl 的 值 。 
5 ER 1 


1. 什么 是 观测 值 (OBS)? 
2. 什么 是 变量 (Variable)? 
3. 下 面 的 变量 名 哪些 有 效 ? 哪些 无 效 ? 
sex.age.vl.location, ab .lage.lv.locationl1, (21, € 1, 951, 8.2 
变量 有 哪些 类 型 ? 
给 程序 a. 1 改 错 。 
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程序 a. 1， 


DATA sj5; 
INETabcee:; 
IF 4=< a< 15 THEN GOIO CK; 
a3; 
COUNT+ 1; 
RETURN; /* RETURN( 返 回 ) 到 DAIR 步 执行 它 下 面 的 语句 * / 
CK:SUMB+ a; 
CARDS; 
3 6 9 1022 15 12 10 14 
P 
PROC PRINT; 
RUN; 


数据 分 析 的 预备 知识 


SAS 简单 编程 要 用 到 DATA 语句 、INPUT 语句 、LABEL 语句 、CARDS 语句 、 
PROC 语句 等 。 


21 ὈΑΤΆΞΕΞΙ 


DATA 语句 格式 如 下 : 
DATA NULL ; /* 不 产生 数据 集 , 见 图 2.1* / 
或 DATA; /* 产生 默认 的 数据 集 WORK.DATAL, 见 图 2.2». / 


或 DATA Dl; /* 产生 指定 的 数据 集 WORK.D1, 见 图 2.3* / 


SAS 的 简单 程序 见 程序 2. 1 一 程序 2.8. 
程序 2. 1: 不 产生 数据 集 。 


DATA NULL ; 

INEUT idab c8 ; /* 用 ee 表示 下 面 的 每 行 数 据 包含 多 个 个 案 * / 
S-SUM(OF a b c); 
A-MEAN(OF a b c); 

PUT S +2A 10.; /* 在 “日 志 (L0G)" 窗 口 显示 结果 */ 

CARDS; 

001 89 91 92 002 91 88 93 003 88 79 95 

RUN; 

运行 程序 2. 1 产生 图 2.1 所 示 的 结果 。 

程序 2.2: 产生 默认 的 WORK. ΡΑΤΑΙ 数据 集 。 

DATA; 

INPUT idab c8 ; /* 用 ee 表示 下 面 的 每 行 数据 包 含 多 个 个 案 * / 
S= SWMM (OF a b c); 
A-MEAN(OF ab c); 

PUT S A; / Æ IoG 窗 口 显 示 输 出 * / 

CARDS; 
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[ PTT TET, 


001 89 91 92 002 91 88 93 003 88 79 95 
ΕΟΝ; 
运行 程序 2. 2 产生 图 2. 2 所 示 的 结果 。 


文件 @) RAD SEV IAD ETD 解决 方案 GE) 窗口 EHW 


A 5 5 $ — z|Du E Θα“ 1 ΞΕ E TERS A 
日 志 - GEBED 
DATA NULL ; 
INPUT id a b ce9。/#+ 用 ee 表示 下 面 的 每 行 数据 包 言 多 个 个 案 */ 
ΒΞΦΙΜ(ΟΕ a b c); 
A-NEAN(OF a b c). 
PUT A S; 人 # 在 LOG 窗 口 显示 输出 +/ 
CARDS 


90. 666666667 272 
|90. 666666667 272 
ΒΤ. 533333333 262 


DEFANS - 程 订 2- 


OF a eps 
; AEL RRETHH/ 


SAD SEV IAD FIY AIEO SOW MHW 


MORK., DATAL 


pey etis TERREI, SAS GM TET 
DATA 语句 Himei ECEE 


per a b e 
NO a b Shana 出 +*/ 


003 88 79 95 


国 输 出 - (ΕΒ ElH$- (天 标题} LI: - τὲ... 


2.2 产生 数据 集 WORK. ΡΑΤΑΙ 


程序 2. 3: 产生 WORK. D1 数据 集 。 


DATA Dl; 

INEUTidab c0 ; /* Hee 表示 下 面 的 每 行 数据 包含 多 个 个 案 * / 
S-SUM(OF ab c); 
A-MEAN(OF a b c); 

PUT S A; /* 在 ICG 窗 口 显示 输出 */ 
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CARDS; 

001 89 91 92 002 91 88 93 003 88 79 95 

ΕΟΝ; 

运行 程序 2. 3 产生 图 2. 3 所 示 的 结果 。 


文件 到 RED SEV IAD i50 FAJRO GOW HHW 
lv z] Dc 8 ἆ οἴ 9g *xoe 
Hi - 《无 标题) 


90. 666666667 272 

[90. 666666667 272 

87. 333333333. 262 wr 

OTE: INPUT WEE TIT, Ba sas ο ποτ. 
NOTE: --- WORK. DI 有 3 个 观测 | 


图 2.3 产生 数据 集 WORK. D1 
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INPUT 语句 格式 :定义 变量 名 、 变 量 类 型 .格式 .长 度 等 属性 。 


变量 类 型 分 为 数字 型 和 字符 型 两 种 。 变 量 的 格式 有 自由 栏目 的 数据 和 固定 栏目 的 
数据 两 种 。 


1. 3 种 自由 栏目 数据 的 格式 


O INPUT 变量 1 变量 2 一 变量 n @@; /*@@ 表 示 每 行 数据 含有 几 个 个 案 * /。 

© INPUT id sex $ age incl-inc3 @@;/* 用 $ 表 示 sex 为 字符 型 变量 * /, 

G INPUT id sex $ age HEINE (3*6. D @@;/ * *3 x 6. 1" 3X Cincl-inc3)3 
个 变量 各 有 6 位 数 , 其 中 小 数位 占 1 位 

例 1: 格式 化 输入 , 见 程序 2. 4a。 

程序 2. 4a: 

DATA; 

INEUT id sex $ age3.20 8 ; 

CARDS; 

01 f 150 02 m 162 03 f 170 04 m 162 05 f 168 06 f 161 
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[ OPTYT £d 


回 Em sas Rik 


XYD MA ππν Τμ ETW παλιο fce bao 


ΠῚ 8 Print 
Dp 


(b) 日 期 输出 
2.4 格式 化 结果 及 日 期 的 输出 


例 2: 用 格式 化 输入 日 期 变量 , 见 程序 2. 4b。 
程序 2. 4b: 

DATA days; 

INEUT id date $ 8. data $ 10.86 ; 

CARDS; 
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1001 01-31-06 18/oct/06 1002 10-12-02 28/jan/06 
1003 12-30-06 26/aug/06 


PROC PRINT; 


运行 程序 2. Ab 产生 图 2. 4(b) 所 示 的 结果 。 

注意 : 

(1) 用 格式 化 输入 格式 时 指针 移动 是 按照 人 为 指定 的 长 度 而 移动 。 所 以 ,两 个 变量 
的 空格 也 包含 在 长 度 内 。 如 果实 际 的 数据 长 度 大 于 指定 的 长 度 “8. ”或 “n. "长度, 则 多 出 
的 数据 被 截 尾 。 

(2) SAS 系统 初始 化 数据 为 “1960 年 1 月 1 日 "。 因 此 如 果 读 入 的 日 期 是 “1960 年 2 
月 1 日 "时 ,天 数 则 是 31 天 。 如 果 读 入 的 日 期 是 “1960 年 1 月 1 日 "以 前 , 则 天 数 是 用 负 
值 表 示 。 

G) 指定 输出 格式 时 ,应 该 与 输入 格式 相对 应 。 否 则 ,输出 的 结果 难于 解释 。 

ΘΙ 3: RH FORMAT 语句 对 相应 时 间 赋 予 日 期 格式 。 

程序 2. 4c: 


DATA days; 

INFUTname $ 8.t date8.; 
FORMAT t YYMMDD8.; 

CARDS; 

Zhangsan 28oct88 

Wangwu 18jan90 

Lisi 28nov92 

P 

PROC PRINT; 

RUN; 


输出 结果 见 图 2.5. 


πίεα) RED SEV IA Σπα 解决 方案 GE) SOW MHW 


日 程 厅 编辑 如 【无 标题 7 


2.5 对 相应 时 间 赋 予 日 期 格式 


18 4. 44 45 14 5 515 


(4) INPUT V (v1-v10) C$ 5.2; /< 表示 (Cvl-v10) 是 字符 型 变量 ,每 个 变量 长 度 为 5 
列 */。 

(5) INPUT V (v1-v10) (3.2; / * 表示 (v1l-v10) 是 数字 型 变量 ,每 个 变量 长 度 为 3 
列 ,没有 小 数位 * /。 

INPUT (vl-v10) (3. D; / * 表示 (v1l-v10) 是 数字 型 变量 ,每 个 变量 长 度 为 3 列 , 小 
数位 占 1 位 x*/。 

(6) 用 行 指 针 #n( 或 用 “/”) 控 读 1 人 多 行 的 数据 , 见 程 序 2. 5 及 程序 2.6. 

程序 2.5. 

DATA; 

INEUT idl vl- v3 #2 v4- v6; 

CARDS; 

1001 70 80 90 

75 85 95 


1002 60 68 88 
76 87 98 


; 


PROC PRINT; 


运行 程序 2.5 可 产生 图 2.6 所 示 的 结果 。 


img) EEV IAV πα 解决 方案 GE) SOW MHU 


os id vi 


1001 70 80 90 75 85 35 
1002 6&0 68 88 76 87 398 


s PROC PRINT 正在 运行 


2.6 用 行 指针 #n 控 读 1 人 多 行 数据 


程序 2.6. 用 “/” 代 替 间 2, 也 产生 图 2. 6 所 示 的 结果 。 


DATA; 

INEUT id vl- v3 /v4- v6; 
CARDS; 

1001 70 80 90 1001 75 85 95 
1002 60 68 88 1002 76 87 98 


PROC PRINT; 
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运行 程序 2.6 也 能 产生 图 2.6 所 示 的 结果 。 

C7) 用 列 绝 对 指针 @ 读 取 自 由 格式 的 数据 。 

。 @#: 如 跳 到 6 Jj. INPUT id vl-v3 /@6 v4-v65/ * 见 程序 2.7x*/ 
程序 2.7: 


DATA; 

INPUT id vl- v3/@ 6 v4 v5 v6; 
CARDS; 

1001 70 80 90 

1001 75 85 95 

1002 60 68 88 

1002 76 87 98 

F 


PROC PRINT; 


运行 程序 2.7 产生 图 2.7 所 示 的 结果 。 


δα) EEV IR πα 解决 方案 G) 窗口 和 WR 


os 4 ve 
100 70 80 30 75 65 
1002 60 68 88 76 87 


E TERR (无 标题 ) PROC PRINT 正在 运行 


2.7 用 列 绝对 指针 @6 读 取 自由 格式 的 数据 


* 用 列 的 相对 指针 十 n 读 取 自由 格式 的 数据 
+n: 例如 向 右 跳 5 列 后 读 自 由 格式 的 数据 。 
INPUT id vl-v3 +5 v4-v65/ * 见 程序 2.8*/ 
程序 2. 8: 

DATA; 

INEUT id vl- v3 + 5 v4- νο; 

CARDS; 

1001 70 80 90 1001 75 85 95 

1002 60 68 88 1002 76 87 98 


PROC PRINT; 


运行 程序 2. 8 产生 图 2.8 所 示 的 结果 。 


ο. Θδεμκμτεά 


SED SEV IAD ZIO ΜΑΖΣΦ SOW HHW 
ΙΠώΠΒ Θὰ 4 πιο DA Oe 


id vi 
1001 70 
1002 60 


O ARI 【无 标题 7 PROC PRINT 正在 运行 


1o01 70 80 90 1001 75 85 95 
1002 60 68 88 1002 76 87 88 


PROC PRINT; 


图 2.8 用 列 的 相对 指针 十 n 挖掘 自由 格式 的 数据 


从 图 2.8 的 “输出 ”窗口 看 ,原始 数据 中 每 一 行 的 第 2 个 个 案 号 (如 1001) 自动 被 略 
zT. 


2. INPUT 的 固定 格式 


用 INPUT 指定 变量 的 固定 格式 时 ,每 一 个 变量 的 值 是 固定 地 输入 在 编辑 器 的 第 几 
列 至 第 几 列 的 栏目 位 置 上 ,简称 固定 的 栏 位 。 

CD 一 般 的 固定 的 栏 位 例子 , 见 程序 2.9. 

程序 2. 9: 

DATA b; 

INPUT id 1- 2 sex 4 age 6- 7; 

CARDS 

01 1 28 

02 2 38 

031 45 

04 236 


AEE 

程序 2.9 中 ,id 变量 值 是 固定 地 输入 在 编辑 器 的 第 1 列 至 第 2 列 的 栏目 位 置 上 ,sex 
变量 值 是 固定 地 输入 在 编辑 器 的 第 4 列 上 ,age 变量 值 是 固定 地 输入 在 编辑 器 的 第 6 列 
至 第 7 列 的 栏目 位 置 上 。 在 这 里 ,每 个 变量 的 值 分 别 空 出 1 列 是 为 了 阅读 和 辨别 。 在 实 
际 应 用 中 则 不 必 空 出 1 列 , 以 提高 数据 输入 的 速度 。 

(2) 栏 位 相同 的 变量 可 以 缩写 。 

INEUT vl 1- 3 v2 4- 6 v3 7- 9; 


可 以 简写 如 下 : 


INEUT (vi-v3) (3* 3.); 
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[* “3% ”表示 有 3 个 变量 。“3.” 表 示 每 个 变量 值 的 长 度 都 是 3 位 整数 * / 
或 INEUT (vi- v3) (3. 3. 3.); 

(3) 固定 格式 数据 遇 到 空格 则 当 作 人 缺失 值 , 见 程序 2. 10。 

程序 2. 10: 

DATA; 

INEUT id 1- 2 sex 4 age 6- 7; 


S 


运行 程序 2. 10 产生 图 2.9 所 示 的 结果 。 


imago) EEV IRD Έπω 解决 方案 G) SOW 帮助 00 


口 程序 编辑 村 — 程 订 Z10- 


Harana- 8... OE5- (无 标题 ) 


图 2.9 固定 格式 数据 遇 到 空格 则 输出 缺失 值 
(4) 固定 格式 数据 的 小 数位 , 见 程序 2. 11. 
程序 2.111 


DATA; 
INFUT id 1- 2 sex 4 age 6-8 .1; 


6δι κας 4 di 


运行 程序 2. 11 产生 图 2. 10 所 示 的 结果 。 


(无 标题 】 PROC PRINT 正在 运行 


< 


PAu Ost- (ποτα... Heres - 程序,. .| OaS- (无 标题 ) 


图 2.10 固定 格式 数据 的 小 数位 


从 图 2. 10 可 以 看 到 ,年 龄 已 格式 化 为 34. 5 岁 等 。“. ”表示 第 5 个 人 的 年 龄 没有 回答 
而 作为 缺失 值 对 待 。 

固定 格式 小 结 : 

。 固定 的 栏 位 必须 严格 固定 地 对 应 , 见 程序 2.9. 

。 固定 格式 数据 遇 到 空格 则 当 作 缺失 值 , 显 示 ”. ”, 见 程序 2. 10。 

。 每 个 数字 型 数据 中 间 不 能 有 空格 ,否则 将 被 示 为 是 两 个 变量 的 值 。 

。 字符 型 数据 虽然 允许 空格 ,但 长 度 在 200 列 以 内 ,而 且 必 须 用 格式 化 形式 。 如 

INPUT id 1-2 sex 4 name $ 5-19 ; /* 将 name 变量 的 值 格式 化 为 从 5 一 19 列 字 符 
型 长 度 , 共 15 列 */ 

ak INPUT id 1-2 sex 4 name $ &.; 

zX INPUT id 1-2 sex 4 name $ 15. ;: 见 程序 2.12, 

程序 2.12: 


DATA b; 

INPUT id 1- 2 sex 4 age 6- 7 name $ 9- 19 ; 

CARDS; 

01 1 28 Zhang san 

02 2 38 Li si 

03 1 45 Wang w 

04 2 36 Ma liu 

PROC PRINT; 

运行 程序 2. 12 可 产生 图 2.11 所 示 的 结果 。 

从 图 2.11 可 看 到 ,字符 型 数据 虽然 允许 空格 ,但 必须 用 格式 化 形式 。 
但 “INPUT id 1-2 sex 4 name 5-19 $ ;” 是 错误 的 , 错 在 name 5-19 $ 上。 
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XD SED SEV IAD 运行 B) MADEO SOW HHW 


A J Osm Sn žen 


图 2.11 字符 型 数据 虽然 允许 空格 但 必须 用 格式 化 形式 
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当 字 符 型 数据 的 长 度 大 于 8 列 时 ,还 可 用 LENGTH 语句 格式 化 长 度 。 例 如 在 程序 
2.12 中 的 INPUT 语句 前 写 上 一 条 LENGTH 语句 : 

LENGTH name $ 13. : (或 LENGTH name $ 12;) 见 程序 2. 18. 

程序 2.18: 


DATA b; 
IENGIH nam $ 12.; 
INEUT id 1- 2 sex 4 age 6- 7 name &; 


03 1 45 Wang wu 

04 2 36 Ma liu 

PROC PRINT; 

运行 程序 2. 13 产生 图 2.12 所 示 的 结果 。 

从 图 2. 12 的 输出 窗口 ,可 以 验证 程序 2. 13 与 程序 2. 12 是 等 效 的 。 


24 4. 44 45 dk 5 5145 


Xt) SED EEV IRAV FFY 解决 方案 G) SOW 帮助 0D 


CEE (无 标题 ) PROC PRINT 正在 运行 


12.; 
INPUT id 1-2 sex 4 age 6-7 name ἃ; 


Dht- 无 标题 ) 


图 2.12 对 程序 2. 12 的 修改 


24 用 ABA 语句 指定 交 量 标签 


变量 标签 使 用 汉字 时 最 多 为 20 个 ,用 字符 时 最 多 为 40 个 字符 , 见 程序 2. 14。 
程序 2.14: 


DATA al; 

INEUT id 1- 2 sex 4 age 6- 7; 
IABEL id- ' 个 案 号 ' sex= ' 性 别 ' age- ' 年 龄 '; 
CARDS; 

01128 

02 2 38 

031 


PROC PRINT DATA- 81; 


运行 程序 2. 14 产生 图 2. 13 所 示 的 结果 。 
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T 5&5 一 SE- (无 标题 ” T 
EA 文件) REV SEV IAV 解决 方案 GE) SOW WHU 


FRED 过 程 


sex * age 表 


100.1 
100.00 
Ls H 


1 2 
50.00 100.00 


图 2.13 变量 成 功 地 汉化 了 


25 用 PROC FCRMAT 和 辽 程 指定 数据 标签 


可 用 PROC FORMAT 过 程 和 VALUE 语句 指定 变量 值 ( 数 据 ) 标 签 。 
数据 标签 使 用 汉字 时 最 多 为 10 个 ,用 字符 时 最 多 为 20 个 字符 , 见 程序 2. 15. 
程序 2. 15: 


DATA al; 
INEUT id 1- 2 sex 4 age 6- 7; 
LABEL id- V|- 4€ 47 ' sex- ' 性 别 ' age- ' 年 龄 '; 
CARDS; 
01 1 28 
02 2 38 
03155 
04 2 29 
$ 
FROC FORMAT; 
VALE sexF 1- ' 男 性 ' 2- ' 女 性 '; 
FORMAT sex sexF.; 
PROC FREQ; 
FORMAT sex sexF.; 
TABLE sex * age; 
PROC PRINT ATA= al; 


运行 程序 2. 15 产生 如 图 2. 14 所 示 的 结果 。 


图 2.14 比 图 2. 13 更 直观 ,因为 又 成 功 地 汉化 了 变量 值 。 
用 FORMAT 语句 复制 变量 值 。 


26 θδι κας cd 


T sas- [b - 【无 标题 I 
AXFO Bo) FEV IAT ΜΕΣ) SOW MHW 


| 了 BA ET OEA 
Ss 


FRED 过 程 
sex * aze 表 
sex( 性 别 ) age (3E ) 


2.00 | 25.00 | 25.00 
50.00 | 50.00 
0:00 100.00 | 100.00 


1 4 
25.00 — 25.00 — 25.00 100.00 


图 2.14 变量 值 又 成 功 地 汉化 了 


例如 : FORMAT sex sexF. ; ( 详 见 程序 2. 15) 
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被 访 者 不 愿意 回答 或 漏 答 的 数据 可 以 作为 缺失 值 处 理 。 数 字 型 数据 的 缺失 值 是 用 
”输入 和 表示 的 。 字 符 型 数据 的 缺失 值 可 以 用 *“A?” 表 示 访 问 时 家 里 没有 人 ,用 “R? 表 示 
访问 时 拒 答 , 详 见 程序 2. 16. 

程序 2. 16: 

DATA ml; 

MISSING A E; / * tl ΤΙΝΑ ATE MOULE ITAR LE F ri 0 3 11 rp {0 URR A fl / 

INEUT id sex $ age ; 

/* 在 下 面 的 数据 行 中 只 能 用 '.' 表 示 缺 失 值 :* / 

CARDS; 

01 m 40 02 f 50 03 m 30 04 . 28 05 f 35 06 . 45 

PROC FREQ; 

TABLE sex* age; 

PROC PRINT DATA- ml; 

运行 程序 2. 16 产生 图 2. 15 所 示 的 结果 。 

WAA: “MISSING A R;: ”语句 在 微型 机 上 行 不 通 . 所 以 建议 数据 还 是 采用 数字 型 
的 好 。 
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Bg) SEV IA FAO SOW 帮助 00 
Z J D+ manate n Dela Oe 
ŠĮ Εν Si- (8) ”PROC PRINT 正在 运行 


sex * age T 


图 2.15 有 缺失 值 的 显示 结果 
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注释 语句 有 以 下 几 种 格式 : 
< ……3《〈 一 般 用 在 语句 行 的 上 一 行 ? 


或 /* 注释 内 容 * / (一 般 用 在 语句 行 的 行 尾 ) 


值 * 


见 程序 2. 16 中 语句 "CARDS; 前面 的 "/* 在 下 面 的 数据 行 中 只 能 用 "表示 缺失 
/", 


28 便 建 新 变量 


语句 格式 : 


天 这 运 算 符 号 变量 名 ; (例如 y-xlei2;) 
Υ-χι 1:1} 1 数值 ; (例如 yinc- mincl* 12;) 


程序 2. 17: 从 月 收入 中 创建 年 收入 的 变量 。 
程序 2. 17 : 


DATA a2; 

INEUT id 1- 2 sex 4 age 6- 7 mincl 9- 13 .1; 
IABEL id- "| 3€ 4 sex ' 性 别 ' age- ' 年 龄 ' mincl=' 月 收入 '; 
yinc-mincl* 12; 

CARDS; 

OL 1 28 45000 

02 2 38 36000 
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03 1 55 30000 

04 2 29 25000 

PROC FORMAT; 

VALE sexF l= ' 男 性 ' 2- "x dE; 
FORMAT sex sexF.; 

PROC FREQ; 

TABLE sex* age; 

PROC PRINT; 


运行 程序 2.17 产生 图 2. 16 所 示 的 结果 。 


μπα) EEV IAV scq) MAJE HOW 帮助 0D 


4 ate, -7 minc! 9-13, ;1; 
RP eee HERI" eges HERR ainele ARA”: 


28 45000 
360 


PROC FORMAT: μμ. ,.. 
VALUE sexF 1= "男性 ” 2= "女性 
FORMAT sex 
ROC FREQ; 


[TABLE sexiage; 
[PROC PRINT; 


Jalas) Dat - 


Y sk C) woe" 


2.16 由 程序 2.17 所 产生 的 运行 结果 


从 图 2.16 可 看 到 ,已 经 新 创建 了 一 个 yinc 变量 。 


29 缺失 值 不 参与 运 复 


程序 2. 18 标明 缺失 值 不 参与 运算 。 


程序 2. 18: 

DATA a3; 

INPUT id scorel score? @@ ; 

Scorel- .; /* 结果 为 .* / 


Score2- scorel+ 5; 

Score- SUM (scorel, 5); [* 结果 为 5* / 
CARDS; 

01 80 90 02 78 88 03 68 79 


2x 数据 分 析 的 预备 知识 
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PROC PRINT; 


运行 程序 2. 18 产生 图 2.17 所 示 的 结果 。 


LFD RED SEV IAD i00) 解决 方案 GE) HOW WHU 
jv ΓΒ ἄν ὰ α O TER 


Ah- 【无 标题 ) 


08:34 Tuesday, Novembe[e] 


score? Score 


ΒΒ [δὴ Print 
四 | 


corel score2 G6; 
为 .站 / 


rel+5; 
[Score-SUM(scorel,5); /4 结果 为 5*/ 
ARDS; 


图 2.17 缺失 值 不 参与 运算 


从 图 2. 17 可 以 看 到 ,有 缺失 值 则 不 累加 。 
210 R 5s ΕΞ ΕΗ 


语句 格式 : 


S= SWN (a,b); 


Y+x; 


程序 2. 19 


DATA; 

INEUTx1x2Q0Q ; 
Yexl; /* 累加 x*/ 

CARDS; 

20 30 40 20 25 18 


PROC PRINT; 


运行 程序 2. 19 产生 图 2.18 的 上 半 图 。 


30 4. 1445 tk 5 * dq 


下 SAS - [πᾶν (Xea) 1 
BFD SED SEV IAV MADEO SOW MMW 


08:34 Tuesday, Novenber| 2 


图 2.18 用 “Y 十 x1;”" 语 句 累加 


211 mH Fk x Ἐ 


语句 格式 : 
ΡΟΒΡ ν; (例子 见 程序 2.20) 
程序 2. 20: 


DATA x; 

INEUTx1x200 ; 

Yexi; /* 累加 ,产生 图 2.18 的 上 半 图 * / 
CARDS; 

20 30 40 20 25 18 

PROC PRINT; 

DATA d; 

SET x; 

t= SUM(OF xl x2); 

DFOP xl; /* 删除 变量 κι,” ^E TE] 2.18 的 下 半 图 * / 
KEEP x2; 

PROC PRINT; 

RUN; 


运行 程序 2. 20 产生 图 2. 18 所 示 的 结果 。 


212 用 INFILE 3& 5 52 X& 2 SP 2x AI EC 18 


当 样 本 量 有 成 百 上 千 份 问卷 时 ,应 该 单独 输入 数据 并 存储 为 数据 文件 。 用 时 再 用 
INFILE 语句 读 取 此 外 部 文件 的 数据 。 


aO nsassemasem 3I 


语句 格式 : 
INFIIE 'D:Wmyl.txt'; 例 见 程 序 2.21. 


先 用 附件 中 的 “记事 本 ”作为 编辑 器 .在 DD 盘 的 根 目 录 上 建立 myl. txt', 即 'D:\myl. 
txt'。 下 面 是 "myl. txt 的 部 分 内 容 : 


0001 2 26 3000 0002 2 30 3200 03 1 31 3300 04 2 29 2990 


然后 用 程序 2.21 的 INFILE 语句 调用 D:\myl. txt' 中 的 数据 进行 统计 。 
程序 2. 21: 

DATA s; 

INFIIE 'D:Wuyl.txt'; 

ΤΝΡΟΤ id sex age mincl 868 ; 


Y-mincl* 12; 


[IUEIIDUBSTUECIUOEELISECRIUNCLT 


80 [ῶ) Print 


日 程序 编辑 器 程序 2- 21. sas 


图 2.19 用 “INFILE D:\myl. txt'; ”语句 成 功 地 调用 外 部 数据 


5 要 2 


1. 指出 下 列 命令 的 作用 。 

(D DATA |, NULL. ; 

(2) DATA; 

(3) DATA D1; 

2. 自由 栏目 数据 有 哪些 格式 ? 


32 


δι κας 4 d 


. 试 举 一 个 格式 化 输入 的 例子 。 

. 试 举 一 个 格式 化 输入 日 期 变量 的 例子 。 

试 举 一 个 格式 化 输出 日 期 格式 的 例子 。 

固定 栏目 数据 有 哪些 格式 ? 

试用 “/” 控 读 一 人 两 行 的 数据 。 

. 试 举 一 个 固定 栏 位 的 程序 。 

. 试 举 一 个 用 LABEL 语句 指定 变量 标签 的 例子 。 
10. 试 举 一 个 用 VALUE 语句 指定 数值 标签 的 例子 。 
11. 试 举 一 个 创建 新 变量 的 例子 。 


o 0 300-0 


数据 的 跳 转 与 循环 


要 从 整体 数据 中 挖掘 部 分 目标 数据 ,就 要 根据 某 些 条 件 是 否 成 立 。 例 如 ， HRE 
立时 转移 到 另外 语句 上 临时 执行 其 他 一 些 指令 ,执行 完毕 便 返 回 到 刚才 的 位 置 上 。 这 种 
转移 形式 则 称 为 “ 跳 转 ”。 

用 于 跳 转 的 语句 有 如 下 所 示 的 几 种 : 

。 IF 二 表达 式 二 THEN 语句 ;/* 如 果 表 达 式 的 条 件 成 立 , 则 执行 它 后 面 的 语 

^] * / 

* IF «εκ THEN 语句 1; ELSE 语句 2; 

/ * 如 果 表 达 式 的 条 件 成 立 , 则 执行 它 后 面 的 语句 1; 否则 就 执行 语句 2 x*/ 


31 IF 语 5 


311 IF THEN 语 句 


1. 语句 格式 
IF < RKR » THEN 语句 ; 


此 格式 表示 ,如 果 条 件 成 立时 则 反馈 “1” ,并 继续 执行 “THEN 语句 ”的 语句 指令 
如 果 条 件 不 成 立 则 反馈 “0”, 不 执行 “THEN 语句 ”的 语句 指令 ,而 跳 转 到 下 面 一 个 语 
名 上 加 以 执行 。 


2. 例子 


例 1: 计算 A,B,C 这 3 次 考试 成 绩 之 和 .如 果 和 大 于 270 分 , 则 显示 出 学 号 及 总 成 


TOTAI= SUM (OF a b c); 
IF TOTAL- 270 THEN PUT id total; 


4». Hiis st 


CARDS; 

001 89 91 92 002 91 88 93 003 88 79 95 

FUN; 

运行 程序 3.1 后 在 “日 志 (LOG) ”窗口 显示 : 1 272( 第 1 位 学 生 总 分 272 分 ,其 他 没 
有 达到 270 分 ), 见 图 3.1。 


LFD RBD FEV IAD 解决 方案 G) VOW MHU 


~ z:]|Dw Sn δα ἄν Ββ «ΦΦ 


程序 编辑 器 - (无 标题 ) 


DATA, gorel: 
TENA 


SUME sb c); 
E E ου fel Pur id total: 


[ο 93 91 92 002 31 88 93 003 88 79 35 


BH (无 标题 ) 
和 

ng μη 

IH SNOP Sp o); 

ls IP TOTAL Mero TRER PUT id total; 
||3 — CARDS; 


ιο: 
hor: GER, Mn gon] [τ Τα. 
: η κ... 
an 8 


Dg 
1:0 


无 标题 ) 


图 3.1 学 生 3 门 功课 的 总 分 


例 2: 对 于 A、B、C 这 3 次 考试 成 绩 每 门 大 于 90 分 的 , 则 显示 出 学 号 及 总 成 绩 , 见 程 
ΒΕ 8.2. 

程序 3. 2 : 

DATA score27 

INEUTidabcQQ ; 

IF a» 90 OR b» 90 CR c» 90 THEN PUT ida b c; 

CARDS; 

001 89 91 92 002 91 88 93 003 88 79 95 

RUN; 

运行 程序 3. 2 后 在 “日 志 (LOG)” 窗 口 显 示 出 3 行 的 结果 , 见 图 3. 2。 

例 3: 对 于 A、B、C 这 3 次 考试 成 绩 平均 大 于 85 分 的 , 则 显示 出 学 号 及 总 成 绩 , 见 程 
序 3. 3。 

程序 3. 3 : 

DATA score3; 

INAT idabc8e ; 


Os 数据 的 跳 转 与 通 环 
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SAS 
文件 @) δα EEV IAV FFV 解决 方案 G) SOW WR500 


| ~ J OSE ΘΑ ἃ δα αΦ9Φ 


日 程 计 编辑 各 ”程序 了 2- sas 


DATA τοογοῦ; 
INPUT id a b c 88; 


IF 4290 OR b>90 OR có80 THEN PUT id a b c: 
01 83 9! 32 002 91 88 99 003 88 79 95 


进入 了 新 的 一 行 。 
oc 


图 3.2 学 生 3 门 功课 大 于 90 分 的 则 显示 其 结果 


M-MEAN(OF a b c); 


IF M> 


85 THEN FUT id M; 


CARDS; 
001 89 91 92 002 91 88 93 003 88 79 95 


P 


RUN; 


运行 


程序 3. 3 后 在 “日 志 (LOG)” 窗 口 显 示 出 3 行 的 结果 , 见 图 3. 3。 


Hg) 编辑 FE) SEV) 工具 I) 运行 GE) 解决 方案 G) SOW Ebo 
Z z]|DuG Θα ας DAO 


DAMENS — KG. 3.5 


DATA, scored; 
INPUT id a b ca 
M-NEANCOF a b c); 
[IE WS5 THEN PUT ip M; 


[aeps: 
Jio 83 91 s2 002 91 98 93 003 88 79 95 


日 志 - 《无 标题) 


b cea; 
MEMEAN(OF a b c); 

IF M85 THEN PUT ID M: 
CARDS: 


at- (无 标题 )  [ElHe- aam |A 


3.3 A、B、C 3 次 考试 成 绩 平均 大 于 85 分 的 个 案 
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312 IF HNES 语句 


1. 语句 格式 


IF < RER THEN 语句 1; 
ELSE 语句 2; 


2. 说 明 
此 语句 表示 : 如 果 表 达 式 的 条 件 成 立 , 则 执行 它 后 面 的 语句 1; 和 否则 就 执行 语句 2. 
3. 例子 


例 4: 在 学 历 调 查 中 有 以 下 4 种 情况 。 

1 一 高 中 以 下 ,2 一 大 专 ,3 一 本 科 ,4 一 硕士 以 上 。 

若 统计 大 专 以 下 的 人 数 , 则 建立 两 个 变量 : da、db。 那 么 ,语句 将 是 : 
IF EDU IE 2 THEN dz= 1; ELSE dz- 0; 

IF EDU GT 3 THEN dœ 1; ELSE d> 0; 


命令 语句 见 程序 3.4, 

程序 3. 4: 

DATA edul; 

INPUT idedu 6 ; 

IF edu IE 2 THEN dz= 1; ELSE dz- 0; 
IF edu GE 3 THEN dœ 1; ELSE db- 0; 
CARDS; 

001 2 002 3 003 4 004 2 005 3 006 4 
; 

PROC PRINT DATA- edul; 

RUN; 


运行 程序 3.4 后 在 输出 (OUTPUT) 窗 口 显 示 出 结果 , 见 图 3. 4。 

IF…THEN 后 面 只 能 用 一 个 语句 。 如 果 条 件 满足 要 执行 多 个 语句 , 则 应 采用 DO… 
END 语句 。 例 如 ,如 果 a 二 3, 则 将 3 改 为 4, 并 且 显 示 出 该 个 案 号 。 这 时 可 采用 以 下 几 条 
语句 : 


IF a= 3 THEN DO; 


Bl 5. IF--- THEN/ELSE T LRE . VL ERFE 3.5. 
程序 3. 5 : 


DATA I1; 
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THp RAD SEV TAD aug FIE WOY EAW 


zA zj Dc E 89 sran ξᾶαι OL 
DAFAR κ. με 4 ὅκα 


2 069 4 004 2 005 2 006 4 
[enc PRINT DaTazedut 
pim; 


量 志 - (无 标题 


ud : 
fii 


D 


dA - GERE 


DAs- (Έα; |DA- «ΜΜΕ 


图 3.4 学 历 调查 


INAT idl 14205566 ; 

IF a-1 THEN DO; 
ΤΕ b-1 THEN PUT 'a- 1 & b- 1 [I] /]- 3€ ' ELSE PUT id 'a=1&b=0 的 个 案 '; 
END; 

ELSE PUT id 'a 不 等 于 1 的 个 案 '; 

CARDS; 

0010111002011000302010040200 

$ 


PROC PRINT; 


运行 程序 3. 5 在 输出 (OUTPUT) 窗 口 显 示 出 结果 , 见 图 3.5。 


[IF a=1 THEN Το; 3 
IF bei THEN PUT ο & tr1 的 个 案 ' ;ELSE PUT "这 
END 


“这 行 是 不 等 于 1 的 71 


3.5 IF--THEN/ELSE [8 HE E £i 5Ε 


æ Θδιμκμσεά 


32 Go PDS 


GO TO 语句 (或 GOTO 语句 ) 让 SAS 立即 跳 向 GO TO 所 指 的 语句 ,并 从 该 语句 开 
始 执行 。GO TO 语句 与 跳 向 的 目标 必须 在 同一 个 DATA 步 中 。 目 标 可 用 OK 或 
LABEL 等 其 他 标号 


.命令 格式 


GOTO OR; 


OK:xtl; 


2. 例子 


ΘΙ 6: GO TO 语句 用 在 IF--- THEN ff] THEN 后 面 表示 跳 转 , 见 程序 3.6 
程序 8.6: 
DATA Gl; 


INAT idab Q0 8 ; 
IF a» =5 AND ας = 8 THEN GOTO CK; 


001 8.8 5.5 002 7.5 8.5 003 6.5 7.5 
P 


PROC PRINT; 


运行 程序 9.6 后 在 输出 (OUTPUT) 窗 口 显 示 出 结果 , 见 图 9.6. 


图 3.6 GO TO 语句 的 输出 
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用 LINK 语句 让 SAS 指向 临时 要 执行 的 子 程序 语句 。 当 遇 到 RETURN 语句 时 , 则 
返回 到 刚才 LINK 语句 的 后 面 语 句 上 继续 向 下 执行 。 


1. 命令 格式 


LINK 目标; /* 目标 是 任意 的 一 个 Sas 命令 。 如 COMPUTE、FECOPE 等 * / 
LINK, /* H UIRE 10 层 LINK--RETUEN ii 5) * / 
RETUEN 

RETURN; 


2. 例子 


例 7: 将 3 次 考试 成 绩 中 的 3 分 改 为 4 分 , 见 程序 3.7。 
程序 3.7: 


DATA al; 
INPUT idtlt2t30 Q0 ; 
T- tl; LINK COMEUTE; 
tl-T; 
T= t2; LINK COMEUTE; 
t2-T; 
T= t3; LINK COMEUTE; 
t=T; 
COMPUTE: IF T= 3 THEN T= 4; 
RETURN; 
CARDS; 
001 3 4 5 002 4 3 5 003344 
PROC PRINT; 
说 明 : 为 了 每 次 给 成 绩 变量 赋值 ,SAS 系统 把 成 绩 送 到 工 变 量 中 ,然后 转 到 子 程序 
COMPUTE 并 赋予 新 值 。 接 着 又 将 改变 后 的 值 反馈 给 原来 的 变量 01.12.13. 
运行 程序 3.7 后 在 输出 (OUTPUT) 窗 口 显 示 出 结果 , 见 图 3.7。 
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LPO WAD SEO IAD MG) WOW FDW 
Ν΄ J Ώωβα 6 |: mam 
| CORE PEN PEINT EEEN 
m 
as OE >: 
ΠΗ 
MiS Print. sas RAA [ur] br 


DATA 
Wh eris tm 
COMPUTE 


τα ΤΗ; LINE o 
TUS LINK cowpure ; 


图 3.7 改变 3 次 考试 成 绩 
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被 标识 为 OK 的 语句 对 每 个 个 案 都 执行 。 但 在 一 定 条 件 下 才 执 行 标识 时 ,就 应 该 使 
用 RETURN 语句 。 


1. 命令 格式 
RETURN; 
当 是 GOTO-- RETURN 结构 形式 时 . 遇 到 RETURN 语句 便 返 回 DATA 语句 并 执 


T DATA 后 面 的 语句 。 
当 是 LINK… RETURN 结构 形式 时 , 遇 到 LINK 语句 便 返 回 LINK 语句 并 执行 


LINK 后 面 的 语句 。 


2. 例子 

例 8: GOTO…RETURN 结构 . 见 程序 3.8. 
程序 3. 8: 

DATA bl; 


INAT idabc@@ ; 
IF 8» Ὁ THEN GOTO OK; 
b-4; 
COUNT 1; 
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RETURN; 

OK:ct 1; 

CARDS; 
01534024780397504645 


PROC PRINT; 


运行 程序 3. 8 后 在 输出 (OUTPUT) 窗 口 显 示 出 结果 , 见 图 3. 8. 


πῃα) Bc) SEV TRO MANEO JOW 帮助 00 
IEZ πω ΘΙδ Ελα PVA OE 
坦 - (ΜΜ) 
SI UD ic a bv 
IF b THEN απο i; 
ui ^ne Te 


JT iB 5098 T (1093 4 SAS 进入 了 新 的 一 行 。 
Hxc ad 


CA) κος PRINT Fir 


Bai- (ΠΡΙΝ... Clu - M) 


图 3.8 GOTO…RETURN 结构 的 程序 输出 


例 9: GOTO… RETURN 结构 ( 见 程序 3. 9). 26 JH. DO- END 格式 替代 ( 见 程 
ΗΕ 8. 10). 
程序 3.9: 原来 的 GOTO…RETURN 结构 语句 。 


DATA Gl; 
INEUTidabcGe ; 
IF a» Ὁ THEN GOTO OK; 
b-4; 
COUNT 1; 
RETURN; 
OK:ct 1; 
CARDS; 
01534024780397504645 


PROC PRINT; 


程序 3.10: 用 DO-- END 格式 替代 GOTO-- RETURN 结构 的 语句 。 
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δικά: cd 


DATA G2;/* “GOTD…EFETURN "结构 常用 下 面 的 DO- END A EAR κ / 
INAT 148566; 
IF a»—5 AND a< = 8 THEN DO; 
a-6; 

COUNT 1; 
END; 
ELSE SUMat b; 
CARDS; 
001 8.8 5.5 002 7.5 8.5 003 6.5 7.5 
; 


PROC PRINT; 


运行 程序 3. 10 后 在 输出 (OUTPUT) 窗 口 显示 出 结果 , 见 图 3. 9。 


XFO 编辑 于) SEV IAV 解决 方案 人) SOW Mhu 


~ J Osm Sn eo Dal Oe 


5.5 002 7.5 8.5 003 6.5 7.5 
[PROC PRINT: 

ATÆ 3 .104/; 

DATA G2; 

INPUT id ab 88: 

IF = 


AND acá THEN DO; 


[CARDS; 
Κο! 8-8 5.5 002 7.5 8.5 003 6.5 7.5 
[PROC PRINT; 
PROC PRINT 
GOTO RETURN 


Oss- (无 标题 ) | [3 程序 编辑 器 - F... 


z T zog- 3 cze σεις 


3.9 用 DO…END 格式 替代 GOTO--- RETURN 语句 的 输出 结果 


例 10. 使 用 DO…END 和 IF--- THEN/ELSE 两 种 语句 , 见 程序 3. 11。 
程序 8.11: 


/# 程序 3.11: 使 用 Do-- END 和 ΤΕ: THEN/ELSE 两 种 语句 * /; 
DATA G22; 
INAT 1185686; 
IF 82-- 5 AND a< — 8 THEN DO; 
a-6; 

COUNT 1; 

END; 

ELSE ΞΜ b; 


2 3k 38 65 B6 5 E UR 
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CARDS; 
001 8.8 5.5 002 7.5 8.5 003 6.5 7.5 


PROC PRINT; 


运行 程序 3. 11 后 在 输出 (OUTPUT) 窗 口 显示 出 结果 , 见 图 3.10. 


|D x mé a: Ao DA Oe 


R 
τ (ἂψ Print: coro az] 


DATA G22; 

INPUT id a b 88; 

IF >: AND «ri THEN DO; 
κ 


DSt- GERE... EAS- 【无 标题 ) | 因 程序 编辑 器 - ο... 


图 3.10 使 用 DO…END 和 IF…THEN/ELSE 两 种 语句 


说 明 : 程序 3.10 与 程序 3. 11 的 区 别 在 于 ,前 面 是 用 “SUMa 十 b;” 语 句 , 程 序 9.11 


则 用 “ELSE SUMa 十 b; ”语句 , 但 结果 相同 。 
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删除 数据 集 里 暂时 不 用 的 个 案 可 用 DELETE 语句 ,或 用 IF 语句 挑选 部 分 有 用 的 个 


案 数据 进行 统计 。 在 这 种 情形 下 ,并 不 删除 原始 数据 中 的 个 案 。 
351 删除 数据 集 里 暂时 不 用 的 个 案 

1. DELETE 语句 的 格式 

IEIEIE; 

2. 例子 


ΘΙ 11: DELETE 语句 的 使 用 , 见 程序 3. 12. 
程序 3.12: 
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δικα: £d 


/* 程序 3.12: 使 用 DErErE i A κ}; 

DATA Dl; 

INEUTidabceGe ; 

IF a< = 65 THEN LEIETE; 

MMN (OFab c); 

CARDS; 

001 88 64 65 002 79 86 90 003 68 77 80 

PROC PRINT DATA- Dl; 

说 明 : 本 例 中 ,变量 a 的 值 小 于 或 等 于 65 分 者 不 进入 SAS 数据 集 WORK. D1 中 , 然 
后 返回 到 DATA 语句 的 下 一 行 继续 执行 语句 。 

DELETE 语句 常用 于 IF…THEN 条 件 之 后 作为 子 句 或 作为 有 条 件 的 执行 DO 语句 
的 一 部 分 。 

运行 程序 3. 11 后 在 输出 (OUTPUT) 窗 口 显示 出 结果 , 见 图 3.11 的 中 部 。 
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85.0000 
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-" 

Ίος; 
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图 3.11 DELETE 语句 的 使 用 


352 用 IF 语句 挑选 部 分 数字 型 的 个 案 


1. IF 语句 的 格式 
τες ΔΙΚΑ; 
2. 例子 


例 12: IF 语句 的 使 用 , 见 程序 3.13. 
程序 3. 13 : 
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45 


/* 程序 3.13: 使 用 焉 语句 * /; 
DATA I1; 
INPUT id sex location age @@ ; 
CARDS; 
001 1 1 88 002 2 2 79 003 1 2 68 0042 1 77 
F 
DATA I2; 
SET Il; 
IF sex= 1 AND location- 1; 
PROC PRINT DATA- I2; 
DATA I3; 
SET I1; 
IF sex= 2 AND location- 2; 
PROC PRINT DATA- I3; 
RUN; 


注意 : 用 IF 语句 挑选 数据 只 能 挑选 数字 型 的 个 案 数据 ,字符 型 数据 不 实用 ! 
运行 程序 3. 13 后 在 输出 (OUTPUT) 窗 口 显 示 出 结果 , 见 图 3. 12。 


IMO MD EEV IAD ΝΟΕ) EOW PHW 


Rd — J I an mns soe 


3.12 用 IF 语句 挖掘 部 分 数字 型 的 个 案 数据 


36 3B £M E 5 


运行 程序 时 往往 要 对 部 分 语句 ( 子 程序 ) 重 复 执 行 多 次 。 例 如 反复 读 取 某 一 个 值 , 或 


反复 计数 。 这 就 称 为 循环 (语句 ) 。 


例 13: 由 某 种 条 件 或 指针 变量 GOTO .控制 反复 计数 10 次 , 见 程 序 3. 14。 
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δικα: T. 


程序 3.14: 
DATA Xl; 
I-1; 
P:EUT I; 
I-TI-1; 
IF I< 10 THEN απο P; 
PROC PRINT DATA- ΧΙ; 
RUN; 
运行 程序 3. 14 后 输出 结果 如 图 3. 13 所 示 。 
SAS 系统 17:07 Thursday. October 31. 2006 
Obs I 
1 10 
图 3.13 反复 计数 10 次 

循环 语句 可 被 人 符 套 在 DO…END 语句 之 间 。 
1. DO-- END 语句 的 格式 
Do 指针 变量 = 始 值 TD 终 值 my 增 量 ; 
2. 说 明 


CD 始 值 , 终 值 , 增 量 必 须 是 数字 型 表达 式 。 

(2) 第 1 次 执行 DO 循环 语句 时 ,指针 变量 在 始 值 上 。 规 定 了 终 值 和 增 量 后 , 当 执 行 
到 END 语句 时 .“ 新 的 指针 变量 "== 指针 变量 十 增 量 。 然 后 遇 终 值 进行 比较 ,一 旦 超过 终 
值 , 便 立即 停止 执行 DO…END 语句 组 。 

G) 车 未 规定 始 值 与 终 值 . 则 循环 组 只 执行 1 次 。 若 未 规定 增 量 , 则 默认 增 量 为 1。 

(4) 第 1 次 执行 DO 循环 语句 之 前 ,就 计算 始 值 和 终 值 。 

例 14: 由 指针 变量 GOTO 控制 反复 计数 10 次 的 完整 程序 , 见 程序 3. 15. 

程序 3. 15 : 

DATA X2; 

ΤΟ A&— 1 TO 10; 
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运行 程序 3. 15 后 在 “日 志 (LOG) ”窗口 显示 出 结果 ., 见 图 3. 14. 


Xftqo SEO SEV IRV 运行 至) Fsk EOW Wu 
|- -DD 有 上 SQ 全 名 x OO 


LINE 


ὨΕΡΕΝ HJI. 15. sas 


图 3.14 循环 10 次 后 “循环 结束 ” 


fi 15: 用 循环 语句 输出 “ 九 九 ” 表 。 
程序 3. 16: 


DATA do; /* 紧凑 的 九 九 表 x* / 
DO I-1 ΤΟ 9; 
DOc17Oi; 
X-i*j; 
ΡΤ 11Χ8 ; 
END; 
PUT; 
END; 


DATA do9; /* 松散 的 九 九 表 * / 
Do I-1710 9; 
ΡΟς-1ΤΟΤ; 
X-i*j; 
FT-10 1 13Χ8 ; 


PROC PRINT; 


运行 程序 3. 16 后 在 “日 志 (LOG)” 窗 口 显示 出 结果 , 见 图 3. 15Ca) 和 (b) 。 
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程序 3.17: 麻花 式 的 九 九 表 。 


DATA d999; /* 麻花 式 的 九 九 表 * / 
Do J-1 TO 9; 
DO I-170J; 
Y-i* j; 
PIT+2@ I-8 Y; 
END; 
PUT +10; 
END; 


运行 程序 3.17 后 在 “日 志 (LOG)” 窗 口 显 示 出 结果 , 见 图 3. 15(c)。 


37 数 组 


如 果 需 要 以 同一 方式 处 理 多 个 变量 , 则 可 用 ARRAY 语句 把 一 组 变量 (数字 型 或 字 
符 型 均 可 ) 定 义 为 数组 中 的 元 素 。 


1. 语句 格式 

ARRAY 数组 名 ml [51 [长 度 ] 元素 1 元 素 2… 元 素 η; 

SAS 是 用 [nj 或 tn} 指 明 使 用 n 个 元 素 , 这 个 n 也 称 为 下 标 。 
2. 语句 格式 说 明 


[n]a (n); 所 引用 的 数组 元 素 的 个 数 . 即 下 标 。 

N 为 正 数 时 ,指定 下 标的 数字 , 例 [n] 或 tn} 表 示 引 用 8 个 元 素 。 

N 为 * 号 时 ,清除 数组 中 元 素 个 数 的 计数 , 例 L* ]。 

[$S]: 表示 数组 中 的 元 素 是 字符 ,例如 ,如 果 数 组 中 的 元 素 sex 已 在 前 面 定 义 过 字符 
了 (如 INPUT sex $)。 则 此 处 的 $ 可 省 略 。 

KE: 如 果 在 INPUT 语句 中 未 定义 某 变量 的 长 度 . 则 用 该 变量 作为 元 素 时 必须 指 
定 其 长 度 。 例 如 : 


IENGTH sex $ 6; 


数组 元 素 表 : 由 INPUT 语句 中 已 定义 的 变量 组 成 。 一 个 变量 可 作为 不 同 数组 中 的 
元 素 。 但 不 能 把 这 个 数组 的 元 素 作为 另 一 个 数组 中 的 元 素 。 


371 下 标 变量 的 下 标 


下 标 可 用 数字 或 任何 有 效 的 表达 式 ,并 用 [ ] 或 1 } 括 起 来 。 例 如 score [8] 表 示 下 标 
变量 是 score, 下 标 元 素 有 8 个 ,如 scorel-score8. 

例 16: 提取 score 数组 中 第 4 个 和 第 7 个 元 素 。 

程序 3.18: 


4. Hiis sk 


DATA sl; 

INEUT testl test5 ttl-tt5G @ ; 

ARRAY score(8) testl-test4 ttl-tt4; 
PUT score{4}= score(7]- ; 

CARDS; 

88 95 80 90 99 100 89 92 89 79 

77 68 98 100 88 89 84 78 88 97 


£F 


运行 程序 3.18 后 在 “日 志 (LOG)” 窗 口 显 示 出 test 和 tt3 的 结果 , 即 第 4 个 元 素 和 
第 7 个 元 素 , 见 图 3. 16. 


XFO ARD EEV TRAD 解决 方案 G) WOW WA 


AY score[8】test1- πα iu- tt4; 
oref4j= score{7}=; 


80 90 99 100 89 92 99 79 
38 100 88 89 84 78 88 97 


TETEE 
ARRAY ESL test -testá tt1-tt4; 
[Sur scorel4 re{7}=; 


间 ) 


s SAS gajve-s. 
Fi 和 10 TRR. 
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图 3.16 挖掘 test4 和 tt3 两 个 元 素 


372 在 DD…END 循 环 中 使 用 数组 


可 用 DO 后 面 的 指针 变量 作为 数组 的 下 标 。 
例 17: 将 7 次 考试 成 绩 中 的 59 分 提升 为 60 分 。 
程序 3.19: 


DATA s2; 
INEUT testl-test7 Q8 ; 
ARRAY score(7) testl-test7; 
ARRAY Av7(7) tl-t7; 
DO 1 T7; 
IF score{I}= 59 THEN score{I}= 60; 
Av7{7}= score(1)/7; 
END; 
CARDS; 
82 59 77 80 85 88 99 100 59 80 78 86 98 100 
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PROC PRINT; 


运行 程序 3.19 后 在 输出 (OUTPUT) 窗 口 显 示 出 结果 , 见 图 3.17. 
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图 3.17 将 7 次 考试 成 绩 中 的 59 分 提升 为 60 分 


373 多 维 数组 
有 多 个 下 标 值 的 数组 是 多 维 数组 。 
1. 语句 格式 
ARRAY A(4,5) TESTI-TESTY; / * 定义 一 个 4 行 5 列 的 二 维 数组 ,用 {] 或 0] 均 可 x*/ 
2. 格式 说 明 


A: 下 标 变量 名 

{4,5}: 4 表示 4 行 ,5 表示 5 |. 

TESTI-TESTn: 下 标 变量 名 可 以 指定 20 个 以 内 。n< 所 一 20。 
3. 计算 原理 


计算 机 SAS 系统 中 ,是 从 数组 的 左上 角 开 始 ,将 各 个 变量 置 于 多 维 数组 中 。 然 后 按 
顺序 填 满 各 行 。 例 如 : 
ARRAY A(2,3) TESTI-TEST6; 


此 语句 将 TESTI 放 在 {1,1} 中 ,将 TEST2 放 在 {1,2} 中 ,将 TEST3 放 在 TEST3(1. 
3} 中 。 然 后 将 TEST4 放 在 TEST4{2,1}) 中 ,将 TESTS 放 在 TEST5{2,2} 中 ,将 TEST6 
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放 在 TEST6{2,3} 中 。 
4. 举例 


在 恋爱 观 的 各 题 各 项 调研 中 ,需要 了 解 每 个 人 对 各 题 各 项 的 选择 情况 。 若 有 4 个 问 
题 ,每 个 问题 有 4 种 选择 , 则 是 多 选项 问题 。 那 么 ,每 人 就 有 下 面 的 选择 可 能 : 


个 案 号 变 量 
Id vl v2 v3 v4 


在 统计 分 析 时 ,如 果 和 希望 输出 图 3. 18 所 示 的 结果 , 则 应 编辑 出 程序 3. 20 所 示 的 命 


d 


令 语 
[Cr (无 标题 ) ] 


DLHO MED SEO TAD MAEV ENV ορ 


CA e a ET 


SAS πε 15:10 Saturdav, November 2, 2002 
v3 νά dil dl2 di3 di4 d21 422 423 424 431 432 433 434 441 442 443 444 


I 
5 
5 
5 
5 


图 3.18 多 选项 问题 的 输出 结果 


程序 3. 20: 产生 图 3. 18 的 命令 语句 。 


DATA p33; 
INEUT id vl- và 868 ; 
ARRAY vv[4] vl- v4; 
ARRAY dd[4,4] dll dl? dl3 dl4 d21-d24 d31-d34 d41-a44; 
DO I-1 TO 4; 
DO J-17T0 4; 
IF vv[i]- j THEN DD[i,j]- 1; 
ELSE DD[i,j]= 0; 


CARDS; 
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运行 程序 3. 20 后 输出 图 3. 18 所 示 的 结果 。 


σι αν ο) Ne 
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. 用 于 跳 转 的 语句 有 哪 几 种 ? 


试 举 一 个 IF —X3553X7— THEN- -ELSE 的 例子 。 
试 举 一 个 DO…END 的 例子 。 
试 举 一 个 GO TO 语句 的 例子 。 


. 试用 循环 语句 输出 “ 九 九 " 表 。 


数据 挖掘 前 需要 有 数据 库 ( 或 称 数据 仓库 ) , 按 SAS 的 行 话 讲 ,就 是 建立 SAS 数据 集 。 
41 SE x SCARE SE 


SAS 系统 一 经 启动 就 在 硬盘 中 开辟 出 一 个 临时 的 工作 区 , 称 为 WORK. * ,并 把 
DATA 步 (DATA 语句 ) 产 生 的 数据 存储 为 临时 数据 集 WORK. DATA1, 或 产生 人 为 指 
定 的 数据 集 , 如 WORK. MY1。 但 是 一 旦 退出 SAS 系统 或 关机 ,临时 数据 集 便 丢失 。 

为 了 将 这 类 临时 数据 集 存储 为 永久 性 的 数据 集 , 就 要 指定 存储 数据 集 的 盘 符 及 子 目 
录 名 ( 即 路 径 ) 和 文件 名 ,通常 是 通过 LIBNAME 语句 及 DATA 语句 实现 的 。 


1. 先 用 LIBNAME 语句 指定 路 径 


SAS 的 数据 集 名 称 前 面 是 无 法 指定 真实 的 路 径 的 ,必须 先 用 LIBNAME 语句 给 路 径 
起 个 别名 ( 即 * 库 逻辑 名 ”) ,以 后 就 可 在 DATA 语句 中 将 别名 还 原 为 真实 的 路 径 名 。 

1) LIBNAME 语句 格式 

LEME 语句 别名 fe 

2) 格式 说 明 

LIBNAME 语句 : 一 旦 出 现 一 个 LIBNAME 语句 , 便 一 直 起 纽带 的 联系 作用 ,直到 
重新 指定 另 一 个 LIBNAME 语句 才 改 变 为 另外 的 路 径 联 系 。 

别名 : FEA. n LAL 或 其 他 字母 。 

路 径 名 : 希望 存 人 永久 数据 集 的 磁盘 及 其 子 目 录 . 并 且 用 一 对 左 撤 号 (或 左 引 号 ) 括 
起 来 。 如 D:\SAS\MY1 或 D:\MY1'。 

3) 例子 

例 1: 将 数据 集 永 久 存 储 于 DD:\SAS 9\MY1' 中 。 其 命令 语句 如 下 。 


这 个 路 径 赋 子 IB* / 
2. 再 用 DATA 语句 确认 LB 名 为 实名 
DATA IB.MY1; /* 在 RTA 语句 中 确认 班 名 并 指定 文件 名 M1 就 可 
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建立 一 个 永久 的 数据 集 “D:NSas 9NMY1.SAS7BDAT" , 
“ -Sas7BDAT" 是 计算 机 sas 内 部 自动 加 上 去 的 默认 后 组 * / 
例 2: 将 数据 集 m. SAS7BDAT 永久 存储 于 'D:\ 新 SAS' 中 . 见 图 4.1(a)。 其 命令 语 
句 见 程序 4. la. 


T. SAS 
IKD MED SEW ΤΗ FATED Πιο) SR) 


LIENANE LB 'D:VÉlsAS ; 
日 DAIA LB.nz 
INPUT dd sex $ age now £6; 
CARDS: 
D1 m 20 1.68 65.5 02 f 25 1.70 58.5 


O3 m 28 1.71 69.5 O4 f 30 1.69 59.5 


cPROc PRINT: 


s 日 志 - 《无 标题 》 


T 4 ΤΊΝΙ, 
παω : 


ΠΠ 


ET 
(2) 数据 集 m.SAS7BDAT 的 信息 


Binz sas 


! 划 
ECT [ 可 打开 四 ) 


| zn 


(b) 存储 数 招集 D:\ 新 SASm.SAS7BDAT 


图 4.1 将 数据 集 m. SAS7BDAT 永久 存储 于 D:\ 新 SAS' 中 


程序 4. la: 


LIPNA IB 'D:\ 新 SAS'; 


$. Hiis tk 


DATA IB.m; 

INEUTid sex $ agehwee ; 
CARDS; 

01 m 20 1.68 65.5 02 £ 25 1.70 68.5 
03 m 28 1.71 69.5 04 f 30 1.69 59.5 
PROC PRINT; 

RUN; 


运行 程序 4. 1a 产生 图 4.1 所 示 的 结果 。 

例 3: 同一 个 DATA 步 (程序 ) 中 可 定义 多 个 LIBNAME 语句 。 例 如 ,在 第 1 个 路 径 
中 读 出 永久 的 SAS 数据 集 TESTI. SAS7BDAT 数据 集 , 在 第 2 个 路 径 中 读 出 永久 的 
SAS 数据 集 TEST2. SAS7BDAT 数据 集 , 见 程序 4. 1b。 

程序 4. 1b: 

IIENRME IB2 'F:\ 新 SAS'; — /* XE X. F:\ 新 SaS 路 径 * / 

LIBNAME IB3 'D:\ 新 SAS'; — /* 再 定义 D:\ 新 SAS 路 径 * / 

DATA IP2.test2; /x* 建立 永久 的 数据 集 F:\ 新 SAS\test2.SAS7BDAT * / 

INPUT id sex $ agehw; 

CARDS; 

01 m 20 1.68 65.5 

02 £ 25 1.70 68.5 

03 m 28 1.71 69.5 

04 f 30 1.69 59.5 


PROC PRINT DATA-IBO.test2; /* 见 图 4.2(a) 倒 数 第 2 集 的 数据 * / 


DATA IB3.test3; /* 建立 永久 的 数据 集 D:\ 新 SASNtest3.SAS7BDAT * / 

SET IB2.test27 /* 把 IB2.test2 数 据 集 复制 给 IB3.test3* / 

ΚΕΕΡ sex age; /* 永久 数 据 集 D:\ 新 sas\test3.sAS7BDAT 中 只 保留 sx 和 age 变量 * / 
PROC PRINT DATA-IB3.test3; —/* 见 图 4.2(a) 最 后 一 个 数据 集 的 数据 * / 

RUN; 


运行 程序 4. 1b 产生 图 4. 2(b) 所 示 的 结果 。 

一 旦 建立 了 永久 的 SAS 数据 集 ( 如 图 4.2(a) 的 m. SAS7BDAT 或 图 4. 2(b)test2. 
SAS7BDAT) ,以 后 只 要 从 该 路 径 ( 如 F:\ 新 SAS\) 调 出 数据 集 (test2. SAS7BDAT) , 便 可 
进行 统计 分 析 。 

ΘΙ 4: 直接 调用 下 :\ 新 SAS\test2. SAS7BDAT 数据 集 进 行 显示 , 见 程序 4. 2。 

程序 4. 2: 

LIENAME IB3 'D:\ 新 SAS'; /* 先 指定 要 显示 的 数据 集 路 径 名 称 “D:\ 新 SAS 路 径 ”* / 

PROC PRINT DATA-IB3.TEST3; — /* 然后 显示 数据 集 “D:\ 新 SASNtest3.SAS7BDAT" * / 

LIENAME IB2 'F:\ 新 SAS'; /* 先 指定 要 显示 的 数据 集 路 径 名 称 “F:\ 新 Sas PRAET κ / 

PROC PRINT DATA= IB2.TEST2; — /* 然后 显示 数据 集 “F:\ 新 SASNtest?.SAS7BDAT" * / 


57 


ELUN CN CN UNILLIUENTUE IT 


ea zi|3xW en ἘΠΙΓΧΞ 


LIBNAWE LB2 ' 
LIBNANE LE3 ' 
E ATA Lhi.testi; 
INPUT id sex $ age h v; 
CARDS; 
D 1.68 
02 1.70 
53 1.71 
Da f sn 1.69 


EPROC PRINT DA 


EDATA LB3.test 


KEEP sex age; 
Ένπας PRINT DATAELS3 enc; 
sum; 


B 输出 - 《无 标题 》 


EE 17:41 Mondev, Novenber 4. 2002 24 n 
Mi dee" ages diy) “τα 
j . 20 1.88 65.5 
2 E pL Wi 
8 n 26 mit 83.5. 
ior 8 Ια δι 
η 11141 Wondey, November 4. 2002 25 
ἂν e ως 
1 L] 20 
2 { 85 
3 L] 28 
4 f 9 
—T[mes-ceem. HES- cuo [ηρώο alol: | 
FES RE sns 文 件 的 .| » η -记事 本 [ET 


(2) 数据 集 Fi\ 新 SAS\test2.SAS7BDAT 的 信息 


(b) 在 储 数 据 焦 FE SAS\test2.SAS7BDAT 


4.2 输出 2 个 数据 集 的 信息 


运行 程序 4. 2 产生 图 4. 3 所 示 的 结果 。 
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XO 编辑 (E) 查看 (W IAW ΜΕΣΞΙ5) 窗口 (Ww) 3ΕΒΚΗ) 
zj|DemHeuus:m-pE&gs:o0e 


EE ΒΕ 
Obs id se aze h . E 
; 1 1 a 20 BO O85 
由 上 Print: sas 系统 2 2 f 25 1.20 68.5 
5 [ig Print: SAS 系统 3 3 a 28 171 695 
i1 34 ὃς η 
SAS 系统 17:41 Monday, November 4, 2002 45 


SAS 系统 17141 Monday. November 4. 2002 46 zi 


编辑 器 一 无 标题 2* PROC PRINT 正在 运行 
LIBNAME LB3 'D:\ 新 5A5'; /* 先 指定 要 打印 的 数据 和 集 路 径 和 名称 "D:\ 新 Sa5 路 径 "*/ 二 
EjPROC PRINT DATA-LB3.TEST3; / "4831 EMME RD: WisasVcests.SASTBDAT "*/ 
LIBNAME LB2 'F:VEsas:; /* 先 指定 要 打印 的 数据 集 路 径 名 称 mF:\ 新 SMAS 路径 "*/ 
Έπος PRINT DATA=LB2.TEST2; /*fA/BiTEDERIE SE ri VISAS cestz SASTBDAT"*/ 


国 输出 - (WER. CRM 一 无 标题 … 


Jar [ass] |B 


图 4.3 输出 数据 集 D:\ 新 SAS\test3. SAS7BDAT 的 信息 


42 数据 的 分 组 及 分 组 标记 


数据 的 分 组 是 为 了 按照 某 个 变量 值 (如 性 别 sex 的 男女 两 组 ) 排 序数 据 , 以 便 分 组 统 
计 分 析 。 


421 分 组 控制 


分 组 控制 的 语句 为 BY 语句 。BY 语句 总 是 和 SORT 语句 联合 使 用 ,以 便 按 组 预先 
排序 个 案 后 再 执行 SET( 复 制 );、MERGE( 合 并 )、UPDATA( 更 换 数据 ) 等 操作 。 


1. BY 语句 格式 
BY [DESCENDING] 变量 1 变量 2…… ; 
2. 说 明 


CD 默认 为 按照 变量 1 的 值 对 个 案 升序 排序 。 

(2) [DESCENDING] 变量 1, 按照 变量 1 的 值 对 个 案 降 序 排序 .其 值 相同 时 再 按照 
后 面 的 变量 (如 “变量 2”) 升 序 排序 个 案 。 

例 5. 按 性 别 升序 排序 个 案 。 

程序 4. 3a: 


DATA testl; 

INEUT id sex $ agehwee ; 
CARDS; 

01 m 20 1.68 65.5 02 f 25 1.70 68.5 


人 = 建立 数据 集 
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03 m 28 1.71 69.5 04 f 30 1.69 59.5 


运行 程序 4. 3a 产生 图 4. 4 所 示 的 结果 。 


EE -9 


| 文件 (E) WEO SEV 工具 (D 运行 (8) 解决 方案 (3) 窗口 (Ww) EHH 


[» -|DOsemWHéa:--m&Dasxoe 


^ . 


DATA testi; 
INPUT id sex $ age h w 88; 

CARDS; 

O1 m 20 1.68 65.5 O2 f 25 1.70 68.5 
03 m 28 1.71 69.5 04 f 30 1.69 59.5 


EDATA testz 

ET testi; 
?PROC SORT; 
BY sex age h w ; 


BPROC PRINT; 
RUN; 


4.4 按 性 别 升序 排序 个 案 


例 6: 先 按 sex 值 升序 排序 个 案 , 性 别 相 同 者 再 按 年 龄 降序 排序 个 案 。 
程序 4. 3b: 


DATA testl; 

INEUT id sex $ agehwGe ; 
CARDS; 

OL m 20 1.68 65.5 02 f 25 1.70 68.5 
03 m 28 1.71 69.5 04 f 30 1.69 59.5 


BY sex DESCENDING age h w 7 
PROC PRINT; 
RUN; 


运行 程序 4. 3b 产生 图 4. 5 所 示 的 结果 。 
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文件 (E) 编辑 (E) EEV TRO) 解决 方案 (5) 窗口 (Ww) RAO 
~ υ  zjDsWiéui:süem-|»5gg soe 
ΓΈ, Els 输出 -无 标题 > 


E DATA testi; 
INPUT id sex $ age h v 88; 
CARDS; 
ol m 20 1.68 65.5 O2 f 25 1.70 68.5 
03 m 28 1.71 69.5 04 f 30 1.69 59.5 


EDATA test; 
SET testi; 
E PROC SORT; 
BY sex DESCENDING age h w ; 


日 PRoc PRINT; 


δ 
Dst- GamE Das- CEHED lol: 


[euss] F 
Bss ΒΙΑ SA5 文 件 的 .| 局 无 标题 -记事 本 | Τη 
图 4.5 按 sex 值 升序 排序 个 案 , 性 别 相 同 者 再 按 年 龄 降序 排序 个 案 


422 数据 的 分 组 标记 


用 BY 语句 分 组 处 理 数据 集 时 (如 BY sex 之 类 的 语句 ) ,将 建立 两 个 变量 : FIRST. 
sex 和 LAST. sex, 以 便 对 分 组 时 的 首尾 两 个 个 案 做 记录 。 

当 检 测 到 某 个 个 案 是 按 sex 值 分 组 的 第 一 个 人 (或 最 小 值 ) 时 . 则 FIRST. sex 一 1; 和 否 
则 FIRST. sex 一 0。 

当 检 测 到 某 个 个 案 是 按 sex 值 分 组 的 最 后 一 个 人 (或 最 大 值 ) 时 , 则 LAST. sex—15 
否则 LAST. sex 一 0。 

FIRST. sex 和 LAST. sex 只 用 于 DATA 语句 中 进行 编程 ,但 不 保存 到 数据 集 里 。 

例 7: 程序 4. 4。 


LIBNAME IBa 'F:\ 新 SAS'; 

DATA IBa.test; 

INPUT id location $ sex $ tlt308 ; 
TOTAL- SUM(OF tl1-t3); 

CARDS; 

01 Dm 78 88 90 02 X F 88 76 92 

03 N m 90 78 88 04 B f 69 84 99 

PROC PRINT; 

PROC SORT DATA- LBa.TEST OUT- scorel; 
BY location sex; 

DATA score2; 

SET scorel; 
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BY location sex; 

DROP TI-T3; 

IF FIRST.IOCATION THEN FUT id location sex; 
PROC PRINT ; 

VAR id location sex; 

RUN; 


运行 程序 4. 4 产生 图 4.6 所 示 的 结果 。 


XPMD ii) SEV IAD FADED EDO BHU 
ο΄ J osm ὢ κ ποπ. 
ErxxIEEEZEELIU 


| = ο 
ΤΊ GÈ Print: πας RSE 
n E n Ses Kk 
Print: Sas 系统 

4B me: sis xt 


TOTAL=SIN (OF -1-03): 
CARDS; 

oL D m7B8 B5 50 Oz xF B5 76 9: 
03 N m 90 78 38 04 B f 608499 


poc PRINT; 


EiPRUC SORT DATkeLBa. TEST OlTescorei: 
BY locasion sexs 
EDATA scorez; 
SET scorei; 
DY location sex; 
DROP Ti-T3: 
IF FIRST.LOCATION THEN PUT id location s 
EpROC PRIMI ; 
VAR id location sex; 
mun; 


图 4.6 在 日 志 窗口 输出 FIRST. LOCATION {5 


从 图 4.6 的 日 志 窗 口 显 示 出 FIRST. LOCATION — 1. 时 的 4 行 观测 值 ,同时 右 侧 输 
出 窗口 详细 显示 4 个 观测 值 的 数据 。 


43 数据 的 排序 


数据 排序 是 统计 分 析 必 经 的 过 程 。 例 如 对 收入 .年龄 或 成 绩 进 行 升序 排序 等 。 
. 语句 格式 


PROC SORT DATA= 数 据 集 名 cor 输 出名: 
BY [DESCENDING] 变量 1 变量 2; 
2. 例子 


例 8. 按 地 区 、 性 别 对 学 生成 绩 的 数据 集 “*F:\ 新 SAS\test. SAS7TBDAT” 进 行 排序 ， 
见 程 序 4. 5。 
程序 4. 5: 
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LIBNAME ΤΕΙ 'F:\ 新 SAS'; 

DATA IBl.test; 

INEUT id location $ sex $ tit3@@ ; 
TOTAL- SUM(OF t1-t3); 

CARDS; 

OL Dm 78 88 90 02 X F 88 76 92 

03 N m 90 78 88 04 B f 69 84 99 

05 N f 80 88 90 


PROC PRINT; /* 显示 数据 集 里 的 数据 .但 尚未 排序 * / 

PROC SORT DATA- IBl.test OUT- scorel; 

BY location sex; 

DATA score2; 

SET scorel; 

BY location sex; 

IF FIRST.IOCATION THEN PUT id location sex; 

PROC PRINT; /* 按 地 区 升序 排序 并 显示 数据 集 里 的 数据 * / 
ΕΟΝ; 


运行 程序 4.5 产生 图 4.7 所 示 的 结果 。 


AO RRO FEV IAD 解决 方案 (5) SOW HIW 


"T — — — TT 
xj η t 


location — sex 


田 Print: SAS 系统 
(B9 Print: SAS RR 
由 Print: SAS 系统 
i [d Print: SAS 系统 


dum [ajos | | 加 输 出 -无 标题 ..， 网 编辑 器 -无 标题 3*| ED 日 志 - 无 标题 ) | 较 程 序 4.5.sas 


[ Goocuments and CC 


4.7 未 排序 和 排序 的 结果 对 比 


44 数据 集 的 连接 


可 用 SET 语句 将 几 个 数据 集 一 个 接 一 个 地 连接 成 大 的 数据 集 。 第 2 个 数据 集 连 接 


在 第 1 个 数据 集 的 后 面 。 
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变量 相同 时 的 连接 


变量 相同 时 的 连接 是 纵向 地 将 几 个 数据 集 的 个 案 连 接 起 来 。 变 量 的 个 数 不 变 但 个 


案 增 多 了 。 


例如 ,数据 集 a 中 有 300 个 个 案 , 每 人 有 id、sex、age 三 个 变量 。 数 据 集 b 中 有 500 个 


例 9: 两 个 数据 集 的 连接 , 见 程序 4. 6。 
程序 4.6; 


DATA A; 

INEUTid sex $ age inome 66 ; 
CARDS; 

O1 m 38 2000 02 f 30 2100 

; 

DATA B; 

INFUT id sex $ age income ; 
CARDS; 

03 m 31 2050 


运行 程序 4.6 产生 图 4.8 所 示 的 结果 。 


下 SAS 
MO ὑπο EEY IAD Ἐπ“ MOUSS) BOW MHU 


人 = 建立 数据 集 
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个 案 , 每 人 也 有 id、sex、age 三 个 变量 。 那 么 ,连接 成 为 大 的 数据 集 之 后 ,将 有 800 个 个 
案 , 每 个 个 案 仍然 是 id、sex、age 三 个 变量 。 


BE 


[η zjDaememu:*m-basixoe 
Lx] 


后 
τὸ (Bg Print: sas A 
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t] 
3 


E DATA A; 
INPUT id sex $ age income θ8; 
CARDS; 

ol m35 z000 Oz τ 30 2100 


EDATA D; 
INPUT id sex $ age income ; 
CARDS; 
03 m 31 2050 


17:41 Monday, November 4, 2002 79 
incowe 
ET] 
2100 
2050 


BDATA Abi; 
SET ΑΒΕ 


I-iPhOC PRINT DATÀ-aki; 


E a aa ha NE 


EE 


84. PROC PRINT DATAabl; - 


ΕΕ μμ Μεσα 
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4.8 两 个 数据 集 的 连接 


变量 不 同时 的 连接 
变量 不 同时 的 连接 是 横向 地 将 几 个 数据 集 的 变量 连接 起 来 。 变 量 的 个 数 变 多 了 但 
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个 案 数 目 不 变 。 

例如 ,数据 集 a 中 有 300 个 个 案 , 每 人 有 id、sex、age 三 个 变量 。 数 据 集 b 中 有 300 个 
个 案 , 每 人 男 有 incl ,inc2 \inc3 三 个 变量 。 那 么 ,连接 成 为 大 的 数据 集 之 后 ,仍然 有 300 
个 个 案 , 但 是 每 个 个 案 的 变量 被 连接 为 3 十 3 一 6 个 变量 。 

例 10: 变量 不 同时 的 连接 , 见 程 序 4.7。 

程序 4.7: 


DATA A; 

INEUT id sex $ age inome 86 ; 
CARDS; 

ΟἹ m 38 2000 02 f 30 2100 


03 m 31 2050 4500 
; 


DATA ABl; 


运行 程序 4.7 产生 图 4. 9 所 示 的 结果 。 


XP) (HB) 查看 (V) 工具 (T) 解决 方案 (3) 窗口 (Ww) M 
[EZ SE TE TE 
--- DJ e a- Emy 


SAS 17541 Monday, November 4, 2002 74 p 


ΓΗΣ 
E κα = 
m ; 


上 DATA A; ΕΙ 
INPUT id sex $ age income ΒΒ; 
CARDS; 
ol m 35 z000 OZ τ 30 2100 


ΕΠΑΕ — 
由 (d Print: σας AR 


EDATA D; 
INPUT id sex $ age income income2 : 
CARDS; 
O3 m 31 2050 4500 


BDATA Abi; 
SETA OBI 
I-PROC PRINT DATi-aki; 


国 输出 - 《无 标题 ..， 自 日 志 - 《无 标题 ) 


程序 4.7.sas* 


EEC 


4.9 变量 不 同时 的 连接 
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443 变量 值 相同 时 的 个 案 连 接 


如 果 两 个 数据 集 A 和 B 是 按 年 龄 升序 排序 的 ,连接 时 要 求 将 年 龄 相同 的 个 案 连 接 在 
一 起 ,这 就 是 变量 值 相同 时 的 个 案 连接 。 这 时 要 用 BY 语句 进行 同 值 的 个 案 连 接 。 

例 11: 变量 值 相 同时 的 个 案 连 接 。 

程序 4. 8: 


DATA A; 

ΤΝΡΟΤ id sex $ age income 06 ; 
CARDS; 

ΟἹ m 38 2000 02 f 38 2100 


03 m 31 2050 4500 

P 

PROC SORT OUT- SCRTa; 
BY age; 

PROC SORT OUT- SORIP; 


00:12 Wednecdey, Febra] 


! 


4.10 变量 值 相同 时 的 个 案 连 接 


66 θδι κας T. 


45 数据 集 “Ἔ--7--᾽ 


当 每 份 问卷 (个 案 ) 有 几 百 个 变量 ,而 这 几 百 个 变量 的 数据 在 同一 行 输入 不 下 时 , 则 
要 考虑 “一 分 为 二 ”地 拆 为 两 半 部 分 输入 (当然 也 可 分 为 两 个 记录 输入 ) ,每 半 部 分 单独 存 
储 为 一 个 数据 集 ,那么 ,这 个 调查 一 共 可 建立 两 个 数据 集 。 但 在 统计 分 析 时 往往 需要 将 
这 两 个 数据 集 “ 合 二 为 一 ”, 才 能 对 数据 进行 充分 的 利用 。 在 这 种 情况 下 ,要 用 SAS » 
MERGE 语句 (或 用 SPSS 的 Data 菜单 中 的 MERGE FILE 命令 ) 对 数据 集 “ 合 二 为 一 
这 里 所 说 的 数据 集 “ 合 二 为 一 ”其 实 可 以 同时 对 多 达 50 个 数据 集 横向 合并 变量 。 
MERGE 语句 格式 : 


MERGE 数据 集 1 数据 集 2 … 数据 集 50; 
451 按 个 案 号 配对 合并 变量 

σι 数据 集 的 001# 个 案 , 对 应 地 与 b 数据 集 00134 个 案 
合并 ,而 成 为 一 个 完整 的 001# 个 案 。 同 理 ,a 数据 集 的 002# 个 案 , 对 应 地 与 b 数据 集 
i Ea EA 个 完整 的 002# 个 案 , 直 到 所 有 的 个 案 都 配对 合并 完毕 。 这 种 
合并 是 变量 的 累加 合并 但 观测 值 (个 案 ) 数 目 不 变 。 


合并 时 ,如 果 某 个 数据 集 a 的 个 案 数 目 少 于 另 一 个 数据 集 b 的 个 案 数 目 时 ,短缺 的 
个 案 上 的 所 有 变量 则 自动 被 赋予 ". ”表示 数据 缺失 值 。 

例 12. 如 表 4.1 所 示 , 有 数据 集 a 和 数据 集 b, 个 案 数目 不 一 样 多 ,变量 数目 也 不 一 
样 多 。 如 果 把 这 两 个 数据 集 进 行 个 案 一 一 配对 合并 , 则 有 图 4. 11 的 结果 ,语句 见 程序 
4.9a。 


表 4.1 数据 集 
数据 集 a 
OBS OU W {4} Id (个 案 号 ) Sex( 性 别 》 Age (年 龄 ) 
01 1 38 
2 02 2 30 
3 03 1 24 
数据 集 b 
OBS( 观 测 值 ) Id (个 案 号 ) Sex( 性 别 ) vt 
01 1 8 
2 02 2 10 


程序 4. 9a: 综合 举例 (个 案 不 同 而 且 变 量 又 不 一 样 的 情形 ) 。 


DATA ΑΙ; 


INEUT id sex age 86 ; 


CARDS; 


人 = 建立 数据 集 
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01138 022 30 03124 


DATA Bl; 

INAT idvt 66 ; 

CARDS; 

01 8 02 10 

DATA AB5; 

MERGE Al Bl; 

PROC PRINT DATA- ab5; 

TIE ' 按 个 案 号 一 一 成 对 合并 变量 '; 

FUN; 

运行 程序 4. 9a 产生 图 4. 11 所 示 的 结果 。 


Xr) HAC) SEV IAV 解决 方案 (5) 窗口 (W) 帮助 (H) 
Πω e YH 和 J ββ «Φ9 


pa 
5 Bg Print: 按 个 案 呈 一 一 成 对 


EDATA Bi; 
INPUT id vt 88; 
CARDS; 
01 8 oz 10 


SATA ABS; 
MERGE Al Bi; 

Έπος PRINT DiTi-abS; 
TITLE “ 按 个 栾 号 一 一 成 对 合并 变 重 ' ; 
RUN; 


πμ 
ευ ροκ”, 


图 内 过 || | 国 和 输出 -《〈 无 标题 自 日 志 -无 标题 | 图 程序 4.9.5as ~ 


4.11 个 案 不 同 而 且 变 量 又 不 一 样 的 合并 结果 


从 图 4. 11 看 ,合并 时 ,如 果 某 个 数据 集 Bl 的 个 案 数 目 少 于 另 一 个 数据 集 Al 的 个 案 


数目 时 ,短缺 的 个 案 上 的 所 有 变量 则 自动 被 赋予 ". ”表示 数据 缺失 值 。 


相反 ,尽管 某 变量 在 其 他 数据 集 里 多 次 出 现 . 则 在 新 合并 的 数据 集 里 它 也 只 能 出 现 


一 次 ,而且 是 最 后 出 现 的 变量 值 履 盖 前 面 出 现 的 变量 值 。 


例 13. 尽管 sex 变量 在 其 他 数据 集 里 也 出 现 过 , 则 在 新 合并 后 的 数据 集 里 它 也 只 能 


出 现 一 次 ,而 且 是 最 后 出 现 的 变量 值 覆 盖 前 面 出 现 的 变量 值 。 例 如 : 


MERGE a b; /* 假定 a 和 两 个 数据 集 里 都 出 现 sex 变量 * / 


那么 ,数据 集 a 里 的 sex 值 ,被 数据 集 b 里 的 那个 sex [H2 ii T o 
程序 4. 9b: 数据 集 Al 里 的 sex 值 , 被 数据 集 B1 里 的 那个 sex 值 覆 盖 了 。 
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DATA A1; 

INPUT id sex age 86 ; 

CARDS; 

01 1 38 022 30 

DATA Bl; 

INEUT id sex scorel score2 66 ; 
CARDS; 

ΟΙ 1 78 88 02 1 86 95 


PROC PRINT DATA- AB5; 
TTIE ' 按 个 案 号 一 一 成 对 合并 变量 '; 


RUN; 
运行 程序 4. 9b 产生 图 4. 12 所 示 的 结果 。 
下 SAS -Jof x] 
文件 (E) 编辑 (E) 查看 (V) 工具 (D 运行 (8) 解决 方案 (3) SOW 帮助 (中 
Jv e PixXOo 
EE [xj 


输出 -《 无 标题 》 


4 
08:39 Tuesday, November 5, 2002 
scorel ^ score? 


78 88 
86 86 


Ki 编辑 器 一 无 标题 3* PROC PRINT 正在 运行 
BDATA Al; 
INPUT id sex age 88; 
CARDS; 
Oi 138 02 2 30 


EDATA B1; 
INPUT id sex scorel score2 88; 
CARDS; 
ol 1 78 88 02 1 86 95 


EDATA ABS; 
MERGE Al Bi: 
EPROC PRINT DATA-abS; 
id ETRS- -ANERER 


TEE OIMISELEHEEL UM mzoe 
MAE ss 文件 的 …| B 程序 4.9b.txt- 记 ... | 
4.12 个 案 相同 但 变量 不 一 样 时 的 合并 


从 图 4.12 看 ,数据 集 Al 里 的 sex 一 2 值 ,被 数据 集 Bl 里 的 sex 一 1 值 覆盖 了 ,从 而 
只 有 sex 一 1 的 个 案 了 ( 见 图 4. 12 所 示 的 输出 窗口 ) 。 

注意 : 一 对 一 的 个 案 配对 合并 .是 按照 个 案 号 配对 合并 的 。 如 果 个 案 号 不 同 , 则 不 能 
采用 MERGE 语句 进行 配对 合并 ,而 必须 改 为 “匹配 合并 ”法 。 见 下 面 的 4.5.2 节 。 


452 用 BY 语句 进行 匹配 合并 


上 面 所 述 是 对 个 案 合 并 或 对 变量 合并 ,是 简单 的 连接 而 已 。 但 有 时 需要 以 某 个 变量 
为 基准 ,将 几 个 数据 集 的 个 案 排 列 起 来 然后 聚合 为 一 个 大 的 数据 集 。 例 如 ,以 location Æ 
量 为 基准 进行 数据 集 的 匹配 合并 。 如 表 4.2 和 表 1. 3 所 示 . 有 两 个 不 同 的 数据 集 。 要 求 
按照 地 区 升序 排序 后 匹配 合并 成 图 4. 13 所 示 的 数据 集 。 
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表 4.2 东城 区 数据 集 a 
OBS( 观 测 值 ) Id (个案 号 ) Sex( 性 别 ) Age (年 龄 ) Location( 地 区 ) 
1 01 1 38 Dc 
2 02 2 30 Dc 
5 4.3. 东城 区 数据 集 b 
OBS( 观 测 值 ) Id (个 案 号 ) Scorel( 数 学 成 绩 ) Score2( 英 语 成 绩 ) Location( 地 区 ) 
1 01 78 88 Hd 
2 02 86 95 Cy 
3 03 99 78 Xc 
下 SAS - [输出 -〈 无 标题 》] ΗΕΕ 
文件 (E) 编辑 (E) EEV IAD 解决 方案 (3) 窗口 (W) 帮助 (H) EXE 


08:38 Tuesday, November 5, 2002 


结果 scorel score? 
m i Print: 
H- Print: 
由 Print: 


ΒΒ [δῇ Print: 


4.13 按照 地 区 (location) 升 序 排序 后 匹配 合并 


产生 图 4. 13 的 语句 见 程序 4. 10。 

程序 4.10: 两 个 数据 集 有 一 个 公共 变量 location, 
/* 程序 4.10. / 

DATA A1; 

INEUT id location $ sex age ; 


DATA B1; 
INEUT id location $ scorel score2 ; 


$. MGRdRS ή 


CARDS; 
01 hd 78 88 
02 cy 86 95 
03 xc 99 78 


PROC SORT DATA- al;BY location; PROC PRINT; 
P 

PROC SORT DATA- bl;BY location; PROC PRINT; 
; 

DATA AB5; 

SET ΑΙ Bl; 

PROC SCRT DATA- AB5; 

BY location; 

PROC PRINT; 

TITE ' 按 location 升 序 排序 合并 变量 和 个 案 '; 
RUN; 
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1. 命令 语句 
ΕΠΕ 文件 说 明 [选项 ]; 
2. 格式 说 明 


FILE: 它 必须 与 PUT、RETURN 语句 连用 。 

文件 说 明 : 文件 标签 ,用 一 对 单 撤 号 " 括 起 来 。 

选项 : 控制 输出 行 的 当前 行 号 ,以 及 当前 列 位 置 及 其 最 大 长 度 。 

如 果 不 指定 FILE 语句 , 则 由 PUT 语句 将 输出 结果 显示 在 日 志 (LOG) 窗 口 。 可 用 
FILE 语句 的 选项 ,指定 变量 应 该 在 当前 行 号 .以 及 当前 列 位 置 。 并 说 明 每 个 新 输出 页 的 
开头 想 打印 什么 内 容 。 

FILE 语句 要 与 PUT 语句 连用 .用 以 建立 和 控制 某 个 输出 行 写 到 外 部 文件 中 。 


3. 文件 说 明 


路 径 和 文件 名 : 如 FILE 'C:\ 新 SAS\OUT1'。 注 意 : 路 径 和 文件 名 要 用 一 对 单 撤 
号 " 括 起 来 。 
LOG: 日 志 窗 口 。 如 ΕΠΕ LOG。 将 PUT 语句 的 输出 显示 在 SAS 的 日 志 窗 口中 ， 
默认 WORK. LOG。 
PRINT: 如 FILE PRINT N—PS; /* 把 PUT 语句 的 输出 (包括 SAS 的 所 有 输出 ) 
显示 在 输出 窗口 COUTPUT) = / 


4. 选项 说 明 
选项 是 控制 输出 行 要 存储 在 输出 文件 的 什么 位 置 。 
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(D COLUMN — Eft a: SAS 自动 把 当前 列 的 位 置 赋予 变量 a。 

(2) LINE 一 变量 b: 变量 b 的 范围 由 1 一 N 值 。 如 果 不 指定 N 一 值 , 则 LINE 一 1。 

(3) LS( 或 LINESIZE) 王 值 : 为 报表 指定 变量 在 行 上 的 长 度 , 以 及 文件 的 最 大 长 度 。 
例如 : 


FILE PRINT LS= 80; 


如 果 用 PUT 语句 指定 的 行 长 .大 于 由 LS—80 所 指定 的 行 长 , 则 每 行将 被 截 成 两 行 
或 更 多 行 。 

例 14: 

FILE PRINT LS- 80; 

EUT name $ 1-40 location 41581; /* PUT 语句 超过 8017 * / 

那么 ,name 变量 值 将 会 输出 在 第 1 £T. location 变量 值 将 会 输出 在 第 2 行 。 

(D N= 二 PS( 或 N= 二 PAGESIZE) 或 N= 值 : 指针 每 次 移动 (显示 ) 的 行 数 。 

ΘΙ 15. 


FILE PRINT LS- 80 N= 3; 


PUT PAGE ; 


由 于 例 15 中 N 一 3. 所 以 指针 由 第 1 行 移 动 到 第 3 行 , 执 行 命令 语句 后 返回 到 第 1 
行 , 即 1 一 3 行 有 效 。 指 针 再 移 到 第 4 行 时 ,4 一 6 行 有 效 。 以 此 类 推 。 

当 指 针 移 到 N—PS 所 指定 的 值 ,或 移 到 “PUT _PAGE_;” 语 句 时 ,指针 便 右 移 到 下 
一 页 的 首 行 。 

如 果 当 前 输出 文件 是 PRINT 名 , 则 必须 是 N==1, 或 N 二 PAGESIZE, 见 例 16。 

例 16: 产生 一 个 两 栏 的 通信 录 。 每 行 含有 性 别 sex 和 电话 dh 两 栏 内 容 , 见 程序 
4.13. 


程序 4. 11: 

DATA TX; 

INPUT name $ 10. location $ 20. ; 

CARDS; 

Zhangsan Dongchengqu 86542334 

Lisiguang Xichengqu 

Wanglaowu Chaoyangqu 

Malaoliu Haidianqu 

DATA TXL, 

FIIE PRINT N- PS; /* 宣告 页 中 各 栏 的 每 行 输出 都 能 够 用 指针 自由 控制 * / 
DO C- 1, 60; /* ?4 DD 循环 到 END 语句 时 ,指针 移 到 第 6 列 * / 

SET TX; /* 复制 并 读 取 已 有 的 数据 集 Tx / 


DOL-11048; /» 当 DD 循环 到 BND 语句 时 , 则 每 页 输出 两 栏 ,每 行 48 个 个 案 的 通信 录 */ 
PUT #1 @C nae 10. +2 location 20.; /» 指针 移 到 首 行 首 列 位 置 输出 name 值 , 右 移 2 列 输出 


T2 


nr; 4 d 


ocaticn 值 * / 


END; 
END; 
PUT PAGE ; /* 执行 “PUT PAGE 7 语句 ,进入 下 一 页 。 下 一 次 执行 DIA 语句 时 工 和 c 的 值 


又 都 从 新 页 的 首 行 首 列 开始 赋值 * / 
PROC PRINT DATA= TXL; 


运行 程序 4. 11 产生 图 4. 14 所 示 的 结果 。 


XO RBO SEV IAV FTA FATO SOW 帮助 中 
[I πώ Φα τς ΟΙ ΦΕΒ ΑχΧΦΦΘ 
EE | 


[E 
πρ 


INPUT name $ 10. location $ 20. 2 
CARDS; 

Zhangsan Dongchengqu86542334 
Lisiguang xichengqu 

Wanglaowu chaoyangqu 

Malaoliu Haidianqu 


A 
EDATA TXL; 
FILE PRINT N=PS; 
DO Ce1,60; 
SET TX; 


4 
Ε 国 输 出 -〈 无 标题 ) |ΕἸΗ͂ΞΕ- 无 标题 ) [回程 序 4.11.sas* Pp... 
INoTE: 提 交 了 20 行 。 — — 0 0 « 0 0 0 0 00 0 jE3CiDocumentsandSetngsRener În 13, Coi7 4 


图 4.14 产生 一 个 两 栏 的 通信 录 


程序 4. 11 说 明 : 

。 NSPS; 宣告 页 中 各 栏 的 每 行 输出 都 能 够 用 指针 自由 控制 。 

。 SET 语句 : 复制 并 读 取 已 有 的 数据 集 TX。 

。 C 王 和 LL=: 指定 指针 的 当前 行 和 当前 列 位 置 。 

* £L 和 @C: 让 PUT 语句 在 当前 行 和 当前 列 位 置 输出 name 变量 值 及 location 变 
量 值 。 行 值 由 1 递增 到 48 fT. 

* 当 内 层 DO ,循环 到 END 语句 时 ,指针 移 到 第 60 列 ,输出 下 一 页 的 48 行 。 当 外 层 
DO ,循环 到 END 语句 时 . 则 每 页 输出 两 栏 ,每 行 48 个 个 案 的 通信 录 。 此 时 执行 
“PUT _PAGE_;” 语 句 , 进 入 下 一 页 。 下 一 次 执行 DATA 语句 时 L 和 C 的 值 又 
都 从 新 页 的 首 行 首 列 开始 赋值 。 
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OUTPUT 语句 让 SAS 将 当前 个 案 的 处 理 结 果 输 出 到 指定 的 数据 集 里 。 


2€ 建立 数据 集 
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471 QJIPUT 语 句 格 式 


coureur 数据 集 1 数据 集 2; 


数据 集 可 以 指定 多 个 。 如 果 不 指 定数 据 集 名 称 , 结 果 则 被 存 人 DATA 语句 所 建立 
的 数据 集 里 。 

简单 的 DATA 步 不 必 指 定 OUTPUT 语句 。 因 为 SAS 回 到 DATA 步 执 行 下 一 
RUN 语句 之 前 ,会 自动 输出 结果 。 

有 以 下 控制 形式 时 需要 指定 OUTPUT 语句 : 

(1) 从 每 个 数据 行 中 建立 两 个 或 多 个 个 案 。 

(2) 从 一 个 输入 的 数据 集 里 ,创建 两 个 或 多 个 数据 集 。 

(3) 将 几 个 个 案 合并 为 一 个 个 案 时 ,在 DATA HEA OUTPUT 语句 , 则 输出 到 所 
指定 的 数据 集 里 而 不 显示 在 “输出 (OUTPUT) ”窗口 。 


472 一 个 个 案 的 变量 分 几 行 输出 


例 17. 要 求 将 每 个 人 的 三 门 功课 分 三 行 输出 ,每 行 只 输出 一 门 的 成 绩 ,命令 语句 见 
程序 4. 12。 
程序 4. 12: 
DATA outp; 
ΤΝΡΟΤ id scorel-score3 868 ; 
DROP scorel-score3; 
Score- scorel; 
OUTPUT; 


01 88 90 92 02 78 88 €8 
F 

PROC PRINT; 

TIE ' 个 案 一 分 为 三 '; 


运行 程序 4. 12 产生 图 4. 15 所 示 的 结果 。 
473 一 个 DAIA 步 创建 多 个 数据 集 


例 18. 要 求 将 每 个 人 的 数据 存储 为 两 个 数据 集 。 如 25 岁 以 下 的 人 存储 成 一 个 数据 
集 A,25 岁 及 25 岁 以 上 的 人 存储 成 另 一 个 数据 集 B, 命 令 语句 见 程序 4.13. 
程序 4. 13 : 


DATA A B; 
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[ OPTYT cd 


文件 (E) 编辑 (E) SEV TRAC) 运行 (8) Farko 官 口 (Ww) 帮助 (H) 
πώ Θὰ : «ιο ναι ακΦ9Φ 


acore= score2: 
OUTPUT; 
score- scores; 
OUTPUT; 

CARDS; 

01 ee 90 92 02 78 58 se 


PROC PRINT; 


TITLE PR FREG 


ES 国 和 输出 -〈 无 标题 ) | 目 日 志 - (无 标题 〉 || 因 程序 4.12.sas* P... | 
πἠἃ«ὕ-«"ῄΗκ“κὑ«ὑὃἃὃἃὅὃἃὅ“ὃ«ἃ“ὃἃὅ“ὃἃ““ἃὃ«ἃκν 


4.15 每 行 变 成 只 输出 一 门 的 成 绩 


INPUT id sex $ agehw@@ ; 

IF age< = 25 THEN OUTPUT A; /* Mf 25 岁 以 下 的 人 存储 成 一 个 数据 集 Ax / 
EUT DATA- a; 

ELSE OUTPUT B; /x 将 25 岁 及 以 上 的 人 存储 成 一 个 数据 集 Bx / 


01 m 20 1.68 65.5 02 f 25 1.70 68.5 
03 m 28 1.71 69.5 04 f 30 1.69 59.5 


运行 程序 4.13 产生 图 4. 16 所 示 的 结果 。 
474 多 行 信 息 合并 为 一 行 


例 19: 将 每 个 人 几 次 的 收 支 累计 起 来 输出 为 一 行 , 见 程序 4. 14。 
程序 4. 14: 


DATA UnTotal; 
INEUT id payl; 
CARDS; 

01 105.50 

01 78.30 

02 110.50 

02 35.50 

03 115.00 


人 = 建立 数据 集 
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PROC SORT DATA UnTotal; 
BY id; 
PROC PRINT; 
TTE ' 支 出 未 累计 '; 
DATA Total; 
SET UnTotal; 
BY id; 
IF FIRST.id THEN pay2- 0; 
Pay2+ payl; 
ΤΕΟΡ payl; 
IF LAST.id THEN OUTPUT; 
PROC PRINT; 
TTE ' ΙΗ ER; 


运行 程序 4. 14 产生 图 4.17 所 示 的 结果 。 


LRD RAE 查看 (WW IAD WUSXC) WOW FMW 


Cir AEA σα OO 
5 输出 - 《无 标题 》 


14:10 Tuesday, November 5, 2002 17 


65.5 
90:5 


seedy, Movesber 5, 2002 10 


GDATA A δ; 
INPUT id sex $ age à ow 80; 
IF age<=25 THEN OUTPUT A; /* 和 将 25 岁 以 下 的 人 存储 成 一 个 数据 集 4*/ 
POT DATheaz 
ELSE OUTPUT D 让 特 25 岁 及 以 上 的 和 人 存储 成 一 个 数据 集 5*/ 
CARDS; 
οἱ πι 20 1.585 55.5 02 f Z5 1.70 68.5 
ο m20 1.71 69.5 04 £ 30 1,09 59.5 
ἢ 
ROC peint DATA=A; 
TITLE: 一 
PROC PRINT DATA-D; 
um; 


Da [E| DA ERA.. Aw (无 标题 | 图 编辑 器 -无 标题 .…| | 


[ EEC A 


4.16 将 原始 数据 存储 为 两 个 数据 集 ( 见 “输出 ”窗口 ) 


W sas - [输出 - 图 4.17stst] 
[DIO S80 FEV IAD MERI) HOW 帮助 由 


[C “5.15 à|:Rem-|5mR!£soe 


XE 14:10 Tuesday. Noveaber 5. 2002 13 


ms id payi 
1 1 0055 
2 1 — 3 
23 2 115 
4 2 35 
5 3 so 
支出 累计 14:10 Tuesday, Novesber 5, 2002 20 


4.17. 将 每 个 人 几 次 的 收 支票 计 起 来 输出 为 1 fT 
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从 图 4. 17 中 的 "支出 未 累计 ”与 “支出 累计 ?两 个 数据 集 的 比较 可 以 看 出 ,已 由 原来 
的 5 行 观 测 值 累计 合并 为 3 行 、 每 行 显示 1 个 人 的 总 支出 。 


48 用 DATASETS Ξ5 ΤΕ T£ FX EX 1i πε 


DATASETS 过 程 可 对 数据 库 文件 进行 追加 、 复 制 . 列 表 、 改 名 或 删除 。 还 可 改变 
DATA 步 的 变量 名 、 变 量 类 型 .变量 长 度 或 标记 。 


1. DATASETS 过 程 命令 


PROC DATASETS [LIBRARY- E 18 ΠΗ 44 1; /* 若 不 指定 库 逻 辑 名 , 则 默认 为 "WORK-* ” 


APPEND BASE- 前面 的 数据 集 DATA= 后 随 的 数据 集 ; 


MODIFY 数据 集 ; 


FRAT 老 变 量 新 格式 ; 


*/ 


/* 一 个 DATASETS 过 程 允 许 指 定 多 个 MODIFY, MODIFY if 4] Jri ifii T LA 18 πὲ 


FORMAT, INFORMAT, LABEL, RENAME 等 子 命令 。 数 据 集 只 能 指定 1 个 * / 


新 格式 , 则 取消 原 格式 * / 


INFORMAT 老 变量 新 格式 ; /* 改变 由 FORMAT 所 指定 的 变量 输入 的 属性 * / 


LABEL 变量 = 新 标签 ; 
RENAME 老 变 量 名 新 名 ; 


2. 子 命令 说 明 


/* 改变 由 MDDIFY 所 指定 的 变量 标签 * / 


/* 改变 或 取消 由 MDpIFY 所 指定 的 数据 集 里 的 变量 属性 。 如 果 不 指定 


APPEND BASE 王 前 面 的 数据 集 DATA 王 后 随 的 数据 集 : 如 果 默 认 尾 随 的 数据 集 ， 
则 追加 当前 工作 区 中 的 数据 集 。 
例 20: H APPEND 子 命令 在 数据 集 a 后 面 追 加 数据 集 b, 见 程序 4. 15. 


程序 4.15: 


DATA A; 


INEUT id sex $ age inome 6 ; 


CARDS; 
O1 m 38 2000 02 f 30 2100 
; 


DATA B; 


INEUT id sex ασε income ; 


CARDS; 
03 m 31 2050 


FROC DATASETS; 
APPEND BASE- a DATAE b; 
MODIFY b; 
INFORMAT income 6.0; 
PROC PRINT; 
RUN; 


/* 主 过 程 名 * / 

/* 在 数据 集 a 后 面 追加 数据 集 bx / 

/* 调用 工作 区 里 的 数据 集 WORK.b 进 行 修改 * / 
/* 把 变量 income 修改 为 6.0 的 长 度 * / 
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运行 程序 4. 15 产生 图 4.18 所 示 的 结果 。 


XRD RED BEV IAD MASES HOW) FMNH) 
E πισω δω ρα θά 199 
目 日 志 - “无 标题 ) ΞΕ 


[ran 
δὲ Proc DATASETS: 


Ra 
Ἐξ LER PEEL 
σα MODIFY ἐν 


ΗΝ ο ΠΩ 
ο μμ ας 
ΕΠΗ ΠΗ 


Fi 


DRH- (RRM Ημ. BFAS 


mom: 


图 4.18 Fl APPEND 子 命令 在 数据 集 a 后 面 追加 数据 集 b( 见 “日 志 ”) 窗 口 


49 查阅 数据 集 有 的 信和 虑 


如 果 想 查阅 数据 集 里 的 变量 、 变 量 类 型 .变量 值 等 属性 ,可 用 PROC CONTENTS 过 
程 命令 。 


1. 命令 格式 


PROC CONTENTS DATA- ŽE a; — /* 查阅 数据 集 a 里 的 信息 */ 
FROC CONTENTS; /* 查阅 当前 工作 区 里 的 数据 集 信息 * / 


2. 例子 


查阅 当前 工作 区 里 的 数据 集 信息 , 见 程 序 4. 16. 
程序 4. 16: 


DATA A; 

INEUT id sex $ age income 86 ; 
CARDS; 

01 m 38 2000 02 f 30 2100 

7 

DATA B; 

INEUT id sex $ age income ; 
CARDS; 
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Qinens t 


03 m 31 2050 


运行 程序 4. 16 产生 图 4. 19 所 示 的 结果 。 


下 SAS 
TRDO ARU FEW IAD HATED FOW HHU 


LIU TERR À 


e e 


m I Contents | 


无 标题 14 * PROC CONTINTS 正在 运行 


"para 57 


TNPUT dd sex $ age income 2 
|| canos, 
|| ex» 3: zoso 


ποστ 
APPEND 。 PhsF-a DATA-b; 
MODIFY b; 
οι ποσο 
PRoc CONTENTS ; 


Y Sh- «πα... ΕΕ. CEARED | 图 编辑 器 一 元 标题 
[XS ΕΙ Έα σα 


4.19 在 输出 窗口 查阅 当前 工作 区 里 的 数据 集 信息 


z m 4 


为 什么 要 用 LIBNAME 语句 指定 路 径 ? 试 举 例 。 
什么 是 分 组 控制 ? 

试 举 一 个 分 组 控制 的 例子 。 

试 举 一 个 用 MERGE 语句 将 数据 集 “ 合 二 为 一 ”的 例子 。 
试 举 一 个 “将 每 个 人 几 次 的 收 支 累计 为 1 次 ”的 例子 。 


σι 5 ο pa 


数据 的 定义 及 汉化 


数据 挖掘 与 统计 分 析 之 前 ,需要 在 程序 中 使 用 一 些 基本 的 过 程 命令 。 本 童 介绍 程序 
中 最 基本 的 SAS 过 程 命令 及 语句 ,是 为 以 后 的 数据 挖掘 奠定 基础 。 


51 DAMA #5 
DATA 语句 格式 : 
DATA 数据 集 ; /* 例如 : FH" DATA score;” 语 句 定义 数据 集 work.score* / 
或 DATA a b; /* 定义 数据 集 worka 和 数据 集 work.bx / 
或 LIBNAME IE2 'F:\ 新 SAS'; /* 定义 F:\ 新 Sas 路 径 * / 
DATA IE2.test2; /* 建立 永久 的 数据 集 F:\ 新 SASNCest2.SAS7BDAT * / 
XX DATA NULL ; /* 为 了 提速 ,可 以 不 建立 数据 集 * / 


52 ΙΝΗΙΕΣΕΣ 


1. 语句 格式 


INFIIE 'D:\ 新 SASNmy.txt'; /* 从 D:\ 新 Sas\ 子 目录 或 文件 夹 读 取 my. txt 纯 ASCII 83 ZO * / 


2. 说 明 


实际 应 用 时 通常 会 有 成 百 上 千 个 个 案 。 这 么 多 的 数据 行 夹 杂 在 命令 语句 里 显得 不 
便 : 也 容易 丢失 。 因 此 人 们 往往 将 成 百 上 千 个 个 案 的 数据 单独 编辑 存储 为 一 个 纯 文 本 的 
数据 文件 (如 my. txt) 。 统 计 分 析 时 用 INFILE 'D: Vr SAS\my. txt 命 令 把 数据 文件 调 到 
内 存 中 即 可 。 

纯 文 本 的 数据 文件 是 ASCI 码 数据 ,在 任何 计算 机 系统 中 都 可 以 阅读 ,并 且 便 于 修 
改 。 纯 文本 的 数据 一 般 是 在 Windows* 附 件 ” 的 “记事 本 ”中 编辑 和 存储 ,起 扩展 名 为 x. 
txt。 如 DD:\ 新 SAS\ 子 目录 中 有 一 个 my. txt 纯 文 本 的 数据 文件 ,其 数据 行 如 下 : 


001 m 30 3000 


80 


[ OPTYT £d 


002 f 28 2800 
003 m 35 3200 
004 f 32 3100 


下 面 就 可 以 用 INFILE 语句 将 my. txt 中 的 数据 读 取 到 SAS 工作 区 中 进行 处 理 , 见 
程序 5. 1。 

程序 5.1: 

LIBNAME IB 'D:\ 新 SAS'; 

DATA IB.income; 

INFILE 'D: Vr SASNuy.txt'; /* 从 'D: Vr. SASN "ή 4 rp E BO my.txt 纯 文本 的 数据 * / 

INFUTid sex $ age height; 


运行 程序 5. 1 产生 图 5.1 所 示 的 结果 。 
ΗΕ 


文件 (E) ΙΟ SEV IAD ΠΩ Μάσα 窗口 (w)》 MW 
anse- A r πο θα αχ 


Sa [πετ] 


图 5.1 输出 结果 


3. 注意 事项 


在 my. txt 数据 文件 里 ,每 一 行 的 数据 有 80 列 。 但 在 “INPUT id 1-5 sex $ 10 … 
height 77 — 78; ”语句 中 最 后 一 个 变量 的 栏目 位 置 分 配 到 78 列 即 止 。 此 时 读 到 数据 文件 
的 第 78 列 后 有 可 能 不 再 读 取 , 这 时 便 丢 失 了 最 后 两 列 的 数据 。 或 者 有 可 能 把 最 后 两 列 
数据 错 判 给 下 一 个 个 案 。 这 就 会 引起 读 取 数据 的 错位 和 错 行 。 即 读 取 数 据 一 错 百 错 。 
因此 ,定义 固定 栏目 格式 的 变量 值 时 .一 定 要 与 数据 文件 中 的 变量 值 的 真实 位 置 一 一 对 
应 ,绝对 不 能 错位 。 
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INPUT 语句 用 以 定义 数据 集 里 的 变量 、 变 量 类 型 .变量 值 、 小 数位 等 属性 。 它 相当 
于 SPSS 系统 中 的 DATA LIST 命令 。 


第 人 政 志 的 定义 及 汉化 δ 


531 用 INPUT 语句 定义 固定 格式 的 变量 
1. 语句 格式 


mar vl 栏目 位 置 ve 栏目 位 置 v3 栏目 位 置 ; 


例如 ; 

程序 5. 2: 

DATA A; 

INFUT id 1-2 sex $4 age 6- 7 incame 9- 13 EH 

CARDS; 

01 m 38 20000 / » 数据 只 能 分 行 写 ,不 能 像 自 由 格式 那样 在 一 行 上 写 几 个 个 案 * / 
02 f 30 21000 

PROC PRINT; 


2. 固定 格式 的 写法 


例如 :“id 1-2” 的 写法 , 先 写 变 量 名 如 id, 空 出 一 列 后 , 写 起 始 栏 位 如 “1”, 加 一 个 “-” 
英文 减 号 , 青 写 终止 符 如 “2”。 

"sex $ 4RR: sex 变量 是 字符 型 的 ,其 值 应 该 输入 在 每 行 的 第 4 列 上 。 

“income 9-13 .1” 表 示 : 收入 变量 的 值 , 应 该 输入 在 每 行 的 第 9 一 13 列 上 ,而 且 
小 数位 占 1 位 。 


532 用 INPUT 语 句 定义 自由 格式 的 变量 
1. 语句 格式 


INEUT vv2vee ; 


例如 : 

程序 5. 3 : 

DATA A; 

INEUT id sex $ age inome 5.188 ; /* 自由 格式 可 用 ee 连 读 几 个 个 案 * / 
CARDS; 

ΟἹ m 38 20000 02 f 30 21000 / * 自由 格式 允许 在 一 行 上 写 几 个 个 案 * / 


PROC PRINT; 
2. 自由 格式 的 写法 


例如 “id” 的 写法 ,只 写 变量 名 如 id, 栏 位 统统 省 去 。 
“sex $ ”表示 : sex 变量 是 字符 型 的 。 
“income 5. RR: 收入 变量 的 值 的 长 度 为 5 列 , 小 数位 占 1 位 。 


82 4. 44 45 dk 5 515 


@@: 自由 格式 可 用 @@ 连 读 几 个 个 案 。 
533 用 INPUT 语 句 指定 格式 化 的 输入 方式 
此 格式 ,在 变量 名 的 后 面 不 写 栏 位 ,但 要 写 变 量 值 的 长 度 以 及 小 数位 。 
1. 语句 格式 
τεστ 变量 1 长 度 . 小 数 变量 2 长 度 .小数 …; 
2. 说 明 


变量 1 长度. 小数: 如 “INPUT age 3. 1;” 表 示 年 龄 有 3 位 长 度 , 其 中 小 数位 占 1 
位 , 见 程序 5. 4。 

程序 5.4. 

DATA abc; 

INFUT id 3. sex $ age4.1; 

CARDS; 

001 m 405 002 f 410 003 m 505 


PROC PRINT ; 


或 


e 
DRH- (无 标题 ) | 日 日志 (无 标题 ) [μήκος ρποςρ... 


ET 


5.2 自由 格式 的 输出 
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534 INPUT 语句 含有 挖掘 功能 


这 里 所 说 的 挖掘 , 既 可 以 把 指针 指向 第 几 行 去 挖掘 数据 ,又 可 跳 到 第 几 列 去 读 取 数 
据 , 还 可 将 指针 空 移 几 列 (如 十 3) 后 再 去 读 取 数 据 。 


1. 语句 格式 
INEUT 83 idl +1 sex +2 age 8c location $ 8. #2 142 3. 7 
2. 说 明 


(03; 绝对 指针 跳 到 第 3 列 去 读 取 个 案 号 141. 

#2: 指针 跳 到 第 2 行 去 读 取 数 据 。 

(Gc. 指针 跳 到 有 字符 c 标志 的 变量 上 去 读 取 数 据 。 
id2 3. : id2 变量 值 的 长 度 为 3 列 字 符 , 没 有 小 数位 。 
程序 5. 5: 按 自己 的 风格 输出 数据 集 的 内 容 。 

DATA as; 


S- 10; 
INPUT idl 8 4 sex $ age 8s location $ 11. #2 id2 3. +1 inoame 6.; 


运行 程序 5. 5 产生 图 5.3 所 示 的 结果 。 


文件 (E) RRO FEV IAW 解决 方案 (3) SOW EMW 
E e EA ] 


[3 
S | 


HH 
ΜΕ E OE E HE E KE HEKE E 


[EEETIITITIET] 
ση 


Xichengqu 


Haidienqu 


到 ECT Eis 
DAt- (AER... EAX- 《无 标题 ) | 园 5.5.sas  PROCPRI... 


5.3 控制 指针 挖掘 的 技巧 
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4. TER 


54 用 LABEL ΤΕ ze SC 3E EE dE 


在 INPUT 语句 中 ,定义 的 变量 名 的 长 度 不 能 大 于 8 个 字符 。 因 此 ,对 于 大 于 8 个 字 
符 的 变量 名 缩写 为 a、b、c 或 v1、v2、v3 之 类 的 变量 名 ,之 后 可 用 LABEL 语句 将 此 简 名 标 
识 为 原名 或 者 用 汉字 汉化 更 美观 。 


1. LABEL 语句 格式 
LABEL 变量 二 ' 标 签 ' 变量 2- VR dE ez 


2. ΒΕ 


ΤΝΡΟΤ id sex age8 @ ; 

LABEL sex- "EJ ' age- "Et ' ia- "AE; 
CARDS; 

01 1 26 02 2 30 03 1 40 


运行 程序 5.6 产生 图 5. 4 所 示 的 结果 。 
τ." ------------- ES 


ΡΑΕ) RAO 查看 (V) IAN ANR MANEO BOW EID 


v J OSM Φω cmojmglsxoe 


7 程序 5.6r/ 
EDATA: 
INPUT id sex age 88; 

LABEL sex=' 性 别 ， age=' 年 龄 ， iq=' 个 寄 号 ':| 
Cappsy 

01 i 26 02 2 30 03 i 40 


PROC PLOT; 


标题 [四 日 二- (元 标题 》 [fisse [ zi 


Wor:gsTiS. — — MJ - 
5.4 用 LABEL 语句 汉化 了 变量 名 称 
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55 JH FORMAT Z VALUE ΞΕ ΞΙ ze Sc gk TÉL ER E 


FORMAT 语句 可 用 于 指定 变量 值 标签 . 即 数值 标签 。FORMAT 语句 的 第 2 个 功 
能 是 指定 “格式 化 输入 ”, 即 指定 某 个 变量 值 的 输出 长 度 。 


551 定义 数值 标签 
要 用 FORMAT 与 VALUE 语句 共同 定义 数值 标签 。 
1. 语句 格式 


PROC FORMAT; 

VALLE aF l= ' 标 签 ' 2= ' 标 签 ' ΡΕ 1— ' 标 签 ' 2- "bk AE ' 3- ΕΛ; 
FORMATa-aF.;  /* aF. 是 新 建 的 变量 ,a 是 在 PaR 步 的 旧 变量 * / 
FORMATb-bF.;  /* 将 下 .新 变量 的 值 ,赋予 旧 变 量 b* / 


2. 例子 


JINEUT id sex age 88 ; 
LABEL sex- ' 性 别 ' age- ' 年 龄 ' ide AE E; 
CARDS; 
OL 1 26 02 2 30 03 1 40 
; 
PROC FORMAT; 
VALUE sexF 1- ' lE ' 2 ' 女 性 '; 
FORMAT sex sexF.; 
PROC FRED; 
TABLE age* sex; 
PROC PRINT; 
RUN; 


程序 5.8. 将 年 龄 分 为 “ 老 中 青 ”3 个 年 龄 段 。 


DATA v; 

JINEUT id sex age income @@ ; 

CARDS; 

OL 1 30 3400 02 2 35 3500 03 1 50 4000 04 2 22 1800 

PROC FORMAT; 
VALUE sexF 1- ' 男 性 ' 2- "4e" ; 
VALUE ageF IOW- 40= "ff 4F A ' 40- 60- ' 中 年 人 ' 60- HGE Ελ"; 
VALUE incomeF LOW- 2000- 1 2001- 3000- 2 3001- HIGH- 3; 


rns £d 


FORMAT sex sexF. age ageF. income inoomeF.; /* 使 新 格式 生效 * / 
LABEL sex- ' 性 别 ' age- ' 年 龄 ' id ' 个 案 号 
PROC FREQ; 
TABIE sex* age; 
PROC PRINT; 
RUN; 


请 上 机 运行 程序 5. 7 和 程序 5. 8 并 分 析 输 出 结果 。 
552 指定 “格式 化 输入 ” 


过 到 日 期 函数 与 日 期 时 间 的 数据 时 ,往往 会 输出 从 1960 年 1 月 1 日 以 来 的 天 数 ( 或 
零点 以 后 的 秒 数 ) 。 因 此 ,必须 用 FORMAT 语句 对 日 期 变量 赋予 相应 的 年 月 日 或 时 间 
格式 。 


τ 编辑 (E) EEV 工具 (D 运行 (@) 解决 方案 3) EOW 帮助 (H) 
zjDeWéeu:-&onbpausxoe 


13:48 Wednesday, November 5, 2002 74 
ος | DATE 
1 28/10/20 
H 
H 


16/01/04 


FpaTa d. 
INPUT id sex DATE 
FORMAT DATE DDHMYYS.; 
CARDS; 

01 1 280ctS0 
02 1 26mar90 
03 2 Oinoves 
04 2 163an54 


ZPROC PRINT; 
RUN; 


“1 
国 输出 - 《无 标题 ) | 自 日 志 - 无 标题 [σα 


ES 


5.5 DATE 栏 下 的 日 期 时 间 变 成 了 28/10/80 


zx naeminue 87 


从 图 5.5 的 输出 窗口 看 ,DATE 栏 下 的 日 期 时 间 变 成 了 28/10/80. 
553 用 RORVAT 语 句 指定 变量 值 的 格式 
FORMAT 语句 除了 上 述 的 两 种 格式 外 ,还 可 用 它 来 指定 “变量 名 长 度 . 小 数位 ”。 
1. 语句 格式 
FORMAT v1 格式 νο diat; 
2. 说 明 


(1) 如 果 某 变量 (如 sex) 在 几 个 FORMAT 语句 中 出 现 , 则 它 只 能 以 在 最 后 那个 
FORMAT 语句 中 的 格式 为 准 。 例 如 ,在 DATA 步 中 用 FORMAT 语句 给 sex 变量 定义 
了 格式 “6.”, 但 在 PROC 步 又 用 FORMAT 语句 给 sex 重新 定义 格式 “5.”, 那 么 ,以 最 后 
这 个 FORMAT 语句 所 指定 的 格式 为 准 。 

(2) 如 果 取 消 DATA 步 中 已 指定 的 输出 格式 , 则 在 FORMAT 语句 中 只 需 指定 变量 
名 ,但 不 要 指定 格式 。 


3. 例子 
程序 5. 10: 


03 2 01nov88 


运行 程序 5. 10 产生 图 5. 6 所 示 的 结果 。 
比较 图 5.6 和 图 5.5 可 以 看 出 ,时 间 格 式 后 来 被 程序 5. 10 中 的 “FORMAT DATE 
YYMMDDS. ; ”语句 改 为 “年 -月 -日 "(如 80-10-28) 的 格式 。 


88 npn; £d 


τ E] 


《E) 编辑 (E) SEV IAD 解决 方案 (5) 窗口 (W) MH) 


J| Ož m ΘΑ 8 n DAO 


FORMAT DATE DDMMYYS.; a 
CARDS; 

01 1 280cc80 

02 1 26mar90 

03 2 01πονθθ. 

04 2 163an84 


EPROC PRINT DATA-D; 


FORMAT DATE YYMMDDS.;; 
RUN; 
“1 »z 
Je Sh- (TE... 日 日 志 - 无 标题 ) | 四 编辑 器 -无 标题 6 -| 
JE C:\Documents and Settings\Raine E 


图 5.6 DATE 栏 下 的 日 期 时 间 变 成 了 80-10-28 


56 A TIILEJEZJE GER RER 


1. 语句 格式 
TITLEN ' 标 题 的 内 容 '; /* 1 一 10。 默 认为 “TTTE ' 标 题 的 内 容 ';”x*/ 


如 果 规 定 的 标题 比 指定 的 行 长 还 要 长 ,标题 则 被 分 为 几 行 输出 。 一 旦 规定 了 标题 就 
一 直 生 效 ,直到 指定 新 的 标题 为 止 。 

TITLE 语句 应 写 在 “PROC 过 程 名 ; ”语句 之 后 ,下 一 个 “PROC 过 程 名 ; ”语句 之 前 ， 
或 写 在 下 一 个 DATA( 或 RUN) 语 句 之 前 。 


2. 例子 


TTE ' 未 成 对 合并 变量 '; /* TITIE 定义 在 两 个 DR 步 之 间 * / 
DATA B1; 

INEUT id scorel score? Q8 ; 

CARDS; 

01 78 88 02 86 95 
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DATA AB5; 

MERGE Al Bl; 

PROC PRINT DATA- ab5; 

TITLE ' 按 个 案 号 一 一 成 对 合并 变量 '; /* TITE 定义 在 两 个 PROC HE ZI IR] κ / 
PROC MEANS; 


; 


运行 程序 5. 11 产生 图 5. Τ 所 示 的 结果 。 


T. SAS 
XO SAO SEV IAD 20O WAIEO FOW RMH 


BIRS MAGRA E] 
13:46 Wednesday, Novesber 6, 2002 


Obe id sex ago scorel score? 


1 1 1 a m 58 
2 2 2 Ὁ 9$ Ej 


id sex age 


» 
E] 


DATA Ai; 
INPUT 1d sex age 88; 
CARDS; 

01 133 02 2 30 


ΤΗ 

TITLE "ΞΕΚΛΓΡΗ ΠΕ: 
DATA Bi; 

INPUT id scorei scorez 88; 

CARDS: 

o1 78 38 02 86 o5 

f 
Epara 

MERGI 


LI IT DATA-abS5; 


τιτιε , 按 个 案 号 一 一 成 对 合并 变量 '; 


PROC MEANS: 


01 138 022 30 
P 

PROC PRINT; 
RUN; 


TITLE ' 显 示 数 据 集 al'; /* TITE 定义 在 RN 之 后 ,不 是 全 程 的 标题 而 仅仅 显示 RON 后面 过 程 的 标 


Hx, 
PROC FREQ; 


程序 5. 12 请 读者 自行 上 机 体验 。 
程序 5. 13 : 


DATA ΑΙ; 


lasi pi 二 
PeT 加 输出 (无 标题 Das -无 标 题 | asn EET [a 
Norci RET i05. Επ ση 
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uns £d 


PROC MEANS;VAR age; 


PROC FREQ; 

TITLE ' 显 示 输 出 结果 '; /* TITIE 定义 在 两 个 FROC 步 之 间 */ 
PROC PRINT; 

运行 程序 5. 13 产生 图 5. 8 所 示 的 结果 。 


πρ MEO FEV TAD FATED WAW HHD 


9 * PROC PRINT 正在 运 


[ 各 cpocumertcand 5ettngriRane | zl 


5.8 TITLE 定义 在 两 个 PROC 步 之 间 


从 图 5.8 看 ,由 于 TITLE 定义 在 两 个 PROC 步 之 间 , 所 以 成 了 两 个 过 程 的 公共 标题 。 
57 IEIZ te A JA AIA πε 


TE SAS 系统 中 .统计 过 程 是 由 专 有 名 词 PROC 加 以 定义 和 执行 。PROC 是 
Procedure 一 词 的 简写 . 即 统 计 过 程 ( 命 令 ) 。 

PROC 的 命令 格式 : 

FEOC 统计 过 程 名 [选项 ]; /* 选项 有 “DAT 数据 集 名 ”等 * / 

例如 : 

PROC MEANS DTA a; 

SAS 系统 中 ,常用 的 统计 过 程 有 FREQ、MEANS、 UNIVARIATE, FACTOR, 
CLUSTER 等 统计 过 程 (命令 )。 下 面 将 简要 地 介绍 常用 的 统计 过 程 (命令 ) 的 功能 ,让 大 
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家 有 个 感性 认识 。 关 于 统计 命令 的 详细 功能 及 其 数据 分 析 ,将 在 各 章 中 详细 介绍 。 


57.4 


用 PROC FREQ 过 程 做 简单 的 频数 分 布 


PROC FREQ DATA—- a; 
TBE 变量 名 ; /* 例子 见 程序 5.14. / 


0113802230 
TITLE '- fA f AUC B i t; 
PROC FREQ; 
TABLE sex; 
RUN; 


572 用 PROC CHART 过 程 画图 


PROC CHART DATA- a; 

HBAR vl; 

VBAR vl; /* 例子 见 程序 5.15. / 
程序 5. 15: 
ge oer ν ες 
DATA A1; 
JINEUT id sex age @@ ; 
CARDS; 
0113802230 
TITLE ' 夯 出 水 平 条 形 图 '; 
PROC CHART DATA- a1; 


HBAR sex; 

TITLE ' 夯 出 垂直 条 形 图 '; 
VBAR sex; 

RUN; 


573 用 PROC ROT 过 程 画 散 点 图 


PROC PLOT ΠΑΤΑ:- al; 
PLOT νι. v2; /* 例子 见 程序 5.16a* / 
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δικα: £d 


程序 5. 16a: 夯 散 点 图 。 


DATA A1; 
INEUT id sex age @@ ; 
CARDS; 

0113802230 

; 

TITE "ifi BUA ΙΙ 1; 
PROC PLOT DATA- a1; 


程序 5. 160. 夯 椭 圆 形 等 高 线 图 。 


DATA P2; 

DO x--3103HBY.1; 
DO y--27102HY .17 
Z-SQRT(x* xty* y); 


; 


FROC PLOT; 
PLOT y * x-z /OONIOUR HAXIS- - 3 TO 3 BY .1 
VAXIS- - 2 TO 2 BEY .1; 


运行 程序 5. 16b 产生 椭圆 形 等 高 线 图 , 见 图 5. 9 所 示 的 结果 。 
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574 用 PROC MEANS 过 程 统计 均值 分 布 
格式 : 


PROC MEANS DATA- al MAXDEC- 2; /* 例子 见 程序 5.17* / 


程序 5.17: 


运行 程序 5.17 产生 图 5. 10(a) 所 示 的 均值 分 布 图 。 
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575 用 PROC RANK 过 程 统 计 秩 和 分 布 
格式 : 


PROC RANK DATA = al TIES= MEAN| HIGH|IOW NORMAL- VW 
OUT-OUTRANK; / "WW Ef Van Der Wacerden* / 
VAR vl v2; 
RANKS 秩 名 (如 RANKsex RANKeduc) ; 
BY 变量 (如 location; / 按 location 分 组 进行 秩 分 变换 前 必须 先 排序 * / 


说 明 : 当 无 法 确定 数据 的 总 体 分 布 , 或 当 数 据 呈 现 明 显 的 偏 态 时 .或 数据 仅仅 是 顺序 
尺度 ( 仅 以 程度 表示 无 具体 数值 ) 时 ,都 不 宜 采用 参数 统计 ,而 必须 采用 不 依赖 于 某 种 总 
体 分 布 的 统计 法 , 即 只 能 比较 其 分 布 ,而 不 能 比较 参数 。 这 是 非 参 数 统计 。 

这 时 应 将 原始 数据 进行 “ 秩 得 分 ”变换 : 先 将 变量 值 从 小 到 大 (或 从 大 到 小 ) 进 行 排 
序 ,然后 分 配 序号 ,使 成 为 原始 数据 的 秩 次 。 

例子 见 程序 5. 18. 

程序 5. 18: 


DATA A1; 
INPUT id sex age xt Q8 ; 
LABEL xt- ' 血 糖 '; 
CARDS; 
Ol 1 38 7.6 02 2 30 9.9 03 2 30 9.1 04 1 50 10.1 
; 
TITLE "统计 秩 和 分 布 '; 
PROC RANK DATA- al NORMAL- VW CUT- OUTRANK; 
VAR age xt; 
RANKS rl r2; 
PROC PRINT DATA- CUTRANK; 
TITE ' NORMAL Wi, VW 正 态 法 '; 
PROC PIOT DATA- al; 
PLOT age * rlxt * 12 ; 
RUN; 


运行 程序 5. 18 后 产生 的 部 分 输出 见 图 5. 10(b)。 
576 用 PROC TABULAIE 制 表 
格式 : 


PROC TABULATE DATA- al FORMAT 14.2 人 或 其 他 值 ); 
Cass 定 类 变量 ; /* 必须 是 定 类 型 变量 * / 


VAR vl v2; /* 必须 是 定 距 定 比 型 变量 * / 
FREQ 变量 v; /* 变量 可 省 略 * / 


TABLE sex AlL,age(N MAX MIN FAN); /* sex fEÍT Lb, age TESI E * / 
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或 


TABIE 页 变量 ，sex ALL,age(N* E- 6. PCT* F= 10.2 MAX MIN MEZN) ; 
/* 页 变量 决定 了 分 页 。sex ETT E, age 在 列 上 。N* F- 6 表示 个 案 数 占 6 位 ,其 中 小 数 
位 占 0 位 * / 
/RIS-15 Box- 平均 成 绩 '; /* FRIS=15 是 行 标题 长 度 。BCK 显示 横行 的 标题 * / 


例子 见 程序 5. 19. 

程序 5. 19: 画 出 学 生成 绩 表 。 有 3 班 学 生 . 每 人 的 成 绩 有 3 门 (scorel-score3)。 要 
求 计 算 每 人 的 平均 成 绩 ( 变 量 Average) ,其 中 90 分 以 上 为 A 类 ,71 一 89 分 为 B 类 ,70 分 
以 下 为 C 类 。 


DATA score; 
OPTION PS- 48; 
INFUT id $ scorelscore3 88 ; 
classid- SUBSTR (id, 1, 3) ; 
Average- MEAN (OF scorel- score3) 7 
IF Average» — 90 THEN grade- 'A'; 
ELSE IF Average« 71 THEN grade- 'C'; 
ELSE grade- 'B'; 
CARDS; 
O6101 88 79 98 06102 86 70 90 06103 60 70 90 
06204 95 70 86 06205 82 92 76 06206 95 85 74 
06307 68 98 78 06308 64 99 88 06309 87 78 88 
; 
TITIE ' 夯 出 学 生成 绩 表 ' 
PROC TABULATE DATA- score; 
KEYLABEL N- ' 个 案 数 ' FCTNF ' 个 案 的 百分数 '; 
CLASS CLASSid grade; 
VAR Average; 
TABLE CLASSid, grade ALL, Average * (N* F=6. PCIN* F- 10.2 MAX MIN MEAN) 
/RIS- 15 Box- 平均 成 绩 '; 
PROC PRINT; 


运行 程序 5.19 后 产生 的 部 分 输出 见 图 5.11. 
577 用 PROC UNVARAIE 过 程 做 详尽 的 频数 分 布 


1. 功能 说 明 


UNIVARIATE 过 程 可 对 数字 型 变量 进行 描述 统计 。UNIVARIATE 过 程 不 仅 提供 
MEAN,SUMMARY,TABULATE „FREQ 等 过 程 所 能 产生 的 描述 统计 量 . 而 且 还 输出 变量 
的 峰 度 、 偏 度 、 众 数 、 中 位 数 、 四 分 位 数 等 详细 的 描述 统计 量 。 同 时 还 可 输出 以 下 的 统计 量 : 

。 输 出 与 FREQ 过 程 类 似 的 频率 表 
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* 几 个 描述 性 分 布 图 
”数据 分 布 的 正 态 性 检验 
。 变量 的 极 值 


2. 命令 格式 


PROC UNIVARIATE 选项 (如 DATA= a); 
VAR 变量 名 ; / 例子 见 程 序 5.20* / 


3. 选项 


DATA-a;: 数据 集 名 称 ( 如 a) 如 果 省 略 , 则 调用 最 后 建立 的 数据 集 。 

FREQ: 输出 变量 值 .频数 .百分比 .累积 百分比 。 

NORMAL: 若 输入 的 数据 为 正 态 分 布 , 则 输出 检验 的 统计 量 。 

PLOT: 输出 3 幅 图 形 . 即 荃 叶 图 .BOX( 盒 ) 图 、 正 态 概率 图 。 当 定义 诸如 “BY sexi" 
语句 时 , 则 按 sex 变量 值 分 组 输出 图 形 。 

PCTPLOT fH: 此 值 等 于 1 一 5, 可 指定 这 5 种 百分比 计算 中 的 一 种 ,默认 为 1。 

VARDEF-DF: 用 (自由 度 一 1) 值 作为 除数 .默认 值 。 

VARDEF 一 WDF: 用 (权重 和 一 1) 值 作为 除数 。 

VARDEF 一 N: 用 个 案 数 n 值 作为 除数 。 

VARDEF— WGT(GE WEIGHT): 用 权重 和 作为 除数 。 

VAR vl; 如 不 指定 变量 名 (如 v1), 则 输出 全 部 变量 的 描述 统计 量 。 有 OUTPUT i 
句 就 必须 有 VAR 语句 。 
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ID sex: 以 sex 值 的 前 8 个 字符 写 出 5 个 最 大 值 个 案 和 5 个 最 小 值 个 案 。ID 变量 被 
写 入 任何 的 OUTPUT 数据 集 里 ,而 且 ID 变量 值 取 自 PROC UNIVARIATE 过 程 中 数 
据 集 的 第 1 个 个 案 ,或 “BY v;” 变 量 组 中 的 第 1 个 个 案 。 

OUTPUT OUT= 数 据 集 名 关键 字 = 王 表 1 表 2: 

对 OUTPUT 的 说 明 . 

(1) 关键 字 即 统计 量 的 名 称 。“ 表 1” 名 称 对 应 VAR 语句 中 的 第 1 个 变量 ,“ 表 2” 名 
称 对 应 VAR 语句 中 的 第 2 个 变量 ,以 此 类 推 。 

(2) 关键 字 所 代表 的 统计 量 如 下 。 

N: 参加 计算 的 个 案 数目 。 

NMISS: 缺失 的 个 案 。 

NOBS: 个 案 数 。 

MEAN: 均 数 ( 即 均 值 ) 。 

SUM: 和 数 。 

STD; 标准 偏差 ( 即 标准 差 )。 

VAR: 方差 。 

SKEWNESS: 偏 度 。 

KURTOSIS: 峰 度 。 

SUMWGT: WEM. 

MAX: 最 大 值 。 

MIN: 最 小 值 。 

RANGE: 全 距 。 

Q1: 下 四 分 位 数 (25% 位 数 )。 

Q3: 上 四 分 位 数 (75% 位 数 )。 

MODE: 众 数 。 

MEDIAN: 中 位 数 。 

Q RANGE; 上 下 四 分 位 数 之 差 。 即 Q3-Q1。 

Pl. 第 1 百 分 位 数 。 

P5: 第 5 百 分 位 数 。 

P10: 第 10 百 分 位 数 。 

P90: 第 90 百 分 位 数 。 

P95: 第 95 百 分 位 数 。 

P99: 第 99 百 分 位 数 。 

SIGNRANK: 符号 秩 。 

NORMAL: 当 N< 2000 时 计算 Shapiro-Wilk 的 统计 量 。 当 N> 二 2000 时 计算 
Kolmogorov 的 统计 量 。 

程序 5. 20: 用 UNIVARIATE 统计 血糖 的 频数 分 布 细节 。 

DATA Al; 

INEUT id sex age xt 88 ; 
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IABEL xt- "ΠΠ ΒΕ’; 

CARDS; 

01 138 7.6 02 2 30 9.9 03 2 30 9.1 04 1 50 10.1 

TITLE ' 用 UNIVARTATE 统计 血糖 的 频数 分 布 细节 tz 

PROC UNIVARIATE DATA- Al PLOT NORMAL FREQ VARDEE- N; 
VAR xt; 

RUN; 


运行 程序 5. 20 产生 图 5. 12 至 图 5. 15 所 示 的 结果 。 
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从 图 5.12 看 .血糖 均值 为 9. 175。 标 准 偏差 为 1. 13541476 .比较 大 。 
从 图 5. 13 看 ,Pr 一 W 值 为 0.3654, 大 于 a 值 0.05, 没 有 理由 拒绝 “ 正 态 分 布 ” 的 理论 


假设 ,所 以 数据 呈现 正 态 分 布 。 
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从 图 5.14 的 频数 分 布 看 ,个 案 一 共 才 4 个 人 ,不 足以 观察 频数 分 布 及 5 个 最 大 值 .5 
个 最 小 值 。 此 处 是 讲解 方法 ,实际 上 个 案 应 该 是 成 百 上 千 个 。 
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5.15 图 形 检验 ( 盒 图 、 正 态 概率 图 ) 


由 于 个 案 太 少 , 所 以 荃 叶 图 、 盒 图 和 正 态 概 率 图 都 未 能 画 好 。 如 果 数 据 呈 现 正 态 性 ， 
正 态 概 率 图 中 的 * 点 应 该 覆盖 十 号 。 因 为 ** ”号 线 表 示 数 据 实际 的 “分 布线 ”,“ 十 ”号 线 
表示 理论 上 要 求 的 “ 正 态 线 ”。 


578 用 PROC DBF 过 程 调用 dBASE 数据 库 数据 


100 


np; cd 


2. 格式 说 明 
* DB3- ; 调用 dBASE 开 数据 库 数据 进行 SAS 统计 。 如 PROC DBF DB3 王 四 国 . 
dbf'; 


* DATAS. 把 当前 工作 区 中 的 数据 集 存 储 为 dBASE 肯 数据 。 如 PROC DATA 
二 ' 四 国 ', 这 时 不 能 用 “OUT 一 ”选项 。 

* OUT- . 把 当前 工作 区 中 的 dBASE 卫 数据 存储 为 SAS 数据 集 。 这 时 不 能 用 
“DATA= 一 ”选项 。 


3. 用 法 说 明 


。 此 过 程 只 产生 输出 文件 ,不 显示 输出 。 

* dBASE 数据 的 后 级 必须 是 “. DBF”。 而 且 必 须 置 于 当前 子 目 录 下 。 

* dBASE 变量 名 长 度 为 10 个 字符 ,转换 为 SAS 数据 集 时 自动 被 截 成 8 个 字符 。 

。 dBASE 逻辑 变量 被 变 为 长 度 为 1 列 的 SAS 字符 型 变量 。 

* SAS 数据 集 里 的 变量 转 为 dBASE 开 数据 中 的 变量 时 ,数字 型 的 变量 则 变 成 了 长 
度 为 16 列 的 dBASE 了 字符 型 变量 。 

。 SAS 数据 集 里 的 带 小 数 点 的 变量 转 为 dBASE 亚 数据 中 的 带 小 数 点 的 变量 时 , 必 
须 用 "FORMAT age4. 1;” 之 类 的 格式 将 SAS 变量 联系 在 一 起 。 否 则 dBASE I 
变量 的 小 数 点 后 面 将 无 数字 。 

例 1: 将 当前 子 目 录 中 的 血糖 数据 转换 为 dBASE 亚 类 型 的 数据 , 见 程序 5. 21。 

程序 5. 21: 

DATA A1; 

INPUT id sex age xt 86 ; 

LABEL xt- "ή B '; 

CARDS; 

01 1 38 7.6 02 2 30 9.9 03 2 30 9.1 04 1 50 10.1 

TITLE '[[| Bl dH sas 数据 集 转 为 dBASE 数据 '; 

PROC DEF DB3- xt DATA- al; 

RUN; 

运行 程序 5. 21 产生 图 5. 16 所 示 的 结果 。 

例 2: 将 当前 子 目 录 中 dBASE 亚 类 型 的 数据 调和 人 SAS 系统 进行 处 理 , 见 程序 

5. 22, 

程序 5. 22: 

reda 
PROC DBF DB3- xt OUT- xuet; 

PROC PRINT; 
VAR id xt; 
TITE ' 血 糖 数据 由 aasE 数 据 转 回 sas 数 据 集 '; 


sÔ 数据 的 定义 及 汉化 
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ΡΕ RRO SEV IAD 解决 方案 (3) EOW HERD 
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EDATA Al; INPUT id sex age xt 88; 
LABEL xt-'ÉLBÉ'; CARDS; 
01138 7.6 02 2 30 9.9 03 2 30 9.1 04 150 10.1 


TITLE AR Bsas*HE Homsi 


EiPROC DBF DB3=xt — DATA-a1; 


图 5.16 将 血糖 数据 由 SAS 数据 集 转 为 dBASE 数据 


运行 程序 5. 22 产生 图 5.17 所 示 的 结果 。 
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5.17 将 dBASE M X 29 H S HS UJ AN. SAS 系统 进行 处 理 


579 用 PROC PRNT 过 程 显示 数据 集 的 信息 


命令 格式 
PROC PRINT DATA= a; /* 显示 DPIR 步 指定 过 的 数据 集 (例如 数据 集 fofi. / 
VAR sex; /* 如 果 指 定 VAR sex, 则 只 显示 变量 sex 值 。 如 果 不 指定 
具体 的 变量 名 . 则 显示 全 部 的 变量 值 * / 
或 PROC PRINT ID id; /* Hi ia( 个 案 号 ) 代 替 默 认 的 cs 序号 ,显示 出 图 形 的 点 * / 


或 PROC PRINT ID id;BY sex; ’» 按 性 别 分 组 显示 数据 集 的 信息 * / 
或 PROC PRINT ID id; SUM incl inc2; — /x* 按 收入 分 别 求 和 之 后 显示 每 个 和 数 */ 


ΘΙ 3: 设 sex—1 为 男性 ,sex 二 2 为 女性 。Location 一 1 为 城市 .Location 一 2 为 农村 。 


月 收入 变量 为 incl, 月 支出 变量 为 out。 要 求 : 
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(1) 按 城乡 显示 男女 两 组 的 月 总 收入 和 月 总 支出 。 
(2) 按 性 别 与 地 区 显示 每 人 的 月 总 收入 和 月 总 支出 。 
程序 5.23: 


/x 程序 5.23% / 

DATA pl; 

INEUT id sex Location incl outl 868 ; 

CARDS; 

O1 1 1 3000 2500 02 2 2 4500 3800 03 2 1 3800 3700 04 1 2 8000 6000 
P 

PROC SCRT; BY sex Location; 

PROC PRINT; BY sex Location; 

SUM incl outl; 

RUN; 


运行 程序 5. 23 产生 图 5.18 所 示 的 结果 。 


下 SAS - [输出 - 《无 标题 》] 
XAO MRO EEV IAD 解决 方案 也 ”窗口 GD) 帮助 tb 


图 5.18 ” 按 城乡 显示 男女 两 组 的 月 总 收入 和 月 总 支出 
从 图 5.18 可 以 一 目 了 然 地 看 出 : 当 sex 二 1 时 ,是 第 1 个 人 和 第 4 个 人 最 先 符合 条 
件 , 所 以 月 总 收入 为 (3000 十 8000) 王 11000 元 ( 见 图 5. 19)。 


B 无 标题 -记事 本 BAE 
文件 (E) RSO ELO FEW 帮助 中 


Obs id incl outi 
1 1 3000 2500 
— Sex-1 Location-2Z 一 
Obs id incl outl 
2 4 8000 6000 


5.19 34 sex— 1 时 的 个 案 月 总 收入 


第 人 μωβ Άσε 103 


当 sex 一 2 时 ,是 第 3 个 人 和 第 2 个 人 符合 和 条件, 所 以 总 收入 为 (3800 十 4500) 一 8300 
元 , 见 图 5. 20。 


B 无 标题 -记事 本 ΒΞΙΕΞ 
文件 下 ) SECO EAD 查看 (W EHA 


一 一 一 一 一 一 sex=2 Locationz 1 ------------------------- 
Obs id incl outl 


4 4500 3800 
sex 8300 7500 

19300 16000 7 5 

is] E 


图 5.20 当 sex—2 时 的 个 案 月 总 收入 
其 余 以 此 类 推 。 
5710 用 PROC ScRT 过 程 对 数据 排序 
上 面 提 到 了 排序 问题 ,这 里 从 统计 过 程 的 角度 介绍 它 的 过 程 命令 及 用 法 。 
命令 格式 


PROC SORT 选项 ; /* 选项 有 DATA- 名 1  OUT- 名 2* / 
BY [DESCENDING] vl v2; 


例 4. 


PROC SORT ΠΑΤΑ:- 52 OUT- sortl; 
BY DESCENDING sex age;/* 先 按 变量 sex 值 降序 排序 个 案 ,sex 值 相同 的 个 案 再 按 age 值 升序 排 


序 * / 
程序 5. 24 
/* 程序 5.24x / 
DATA s2 ; 


INEUT id sex $ location scorel-score3 868 ; 
s= SUM(OF scorel- score3); 
Average- MEAN (OF scorel-score3); 
CARDS; 
001 m 1 80 90 88 002 f 2 78 89 91 003 m 2 82 93 90 004 f 1 90 87 89 
TITLE ' 按 性 别 地 区 升序 排序 学 生成 绩 表 '; 


PROC SORT DATAS s2; 


104 4. 'TTYERE: 


文件 (E) SBO SEV 工具 (D FAJRO 窗口 (W) EHH 
IEZ zj|DxW du ;mc-|»masoe 
E ES 


(PES. 24*/ ES 
EDATA s2 ; 
INPUT id sex $ location scorei- score3 88; 
s-SUM(OF scorei- score3); 
Average-MEAN(OF scorei- score3); 
CARDS; 
O01 m 1 80 90 88 002 f 2 78 89 91 003 m 2 82 93 90 004 f 1 90 87 89 


TE REAGEARRE 7 
E PROC SORT DATA-s2; 


BY sex location; 
日 PROC PRINT; 


RUN; m 
Εν 输出 -〈 无 标题 ) 


[SEL 
ΠΤ; 


2 
14:25 Thursday, Novenber 7, 2002 


sex — location scorel score? — scorej $ Average 


1 80 87 的 206 — 88.6667 
58 — 86.0000 


268 06.0000 Ll 


E 5.21 按 性 别 地 区 升序 排序 学 生成 绩 表 


5711 用 PROC STANDAFD 过 程 对 变量 标准 化 


标准 化 变量 是 把 变量 标准 化 成 均值 为 某 值 (如 80) ,标准 偏差 为 某 值 (如 5)。 或 把 变 
量 标准 化 成 均值 为 0, 标 准 偏差 为 1 的 正 态 性 变量 。 


1. 命令 格式 


PROC STANDARD 选项 ; /* 选项 见 2.* / 
VAR vl v2; 


2. 选项 


DATA=v1: 如 果 默 认 数据 集 名 称 “v1”, 则 对 工作 区 里 的 数据 集 的 变量 进行 标准 化 。 
OUT-ol: 如 果 默 认 数 据 集 名 称 *“o1”. 则 标准 化 后 将 结果 存 人 DATAI. 
ΥΑΚΡΕΕΞΡΕ: 用 (自由 度 一 1) 值 作为 除数 ,默认 值 。 

VARDEF-— WDF: 用 (权重 和 一 1) 值 作为 除数 。 

VARDEF-—N: 用 个 案 数 n 值 作 为 除数 。 

VARDEF— WGT(CGEE WEIGHT): 用 “权重 和 ”作为 除数 。 

MEAN=: 计算 均值 .如 MEAN 一 80。 

STD=: 标准 偏差 ,如 STD—5. 

REPLACE: 用 均值 取代 缺失 值 。 

程序 5. 25: 


DATA 52 ; 


zs 数据 的 定义 及 汉化 
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INPUT id sex $ location scorel score3 868 ; 
s= SUM(OF scorel-score3); 

Average- MEAN (OF scorel- score3) 7 

CARDS; 

001 m 1 80 90 88 002 f 2 78 89 91 003 m 2 82 93 90 004 f 1 90 87 89 

P 

DATA s3; 

SET s2; 

Stl- scorel; St2- score2; St3- score3; 

PROC STANDARD ΠΑΤΑ:- 53 OUT- scorestd M= 80 STD- 5 REPLACE; 
VAR Stl-St3; 

PROC PRINT DATA- scorestd; 

TITIE ' 对 s3 数 据 集 里 的 变量 进行 标准 化 '; 

PROC MEANS DATA- scorestd MAX- 2 MEAN STD; 

TITLE ' 显 示 数 据 集 里 的 变量 的 均值 z 


运行 程序 5. 25 产生 图 5. 22 和 图 5. 23 所 示 的 结果 。 


下 SAS - [输出 -〈 无 标题 ) ] ΒΞ 
ΓΑ πη 编辑 (E) EEV IAD 解决 方案 (3) HOW ΜΑΧΗ) μη 
Ier Ps A AET 
443 14:25 Thursday, November 7, 2002 < 
Js id sex location score! score? scored s Average. su Er Er 
ΠῚ 1 τ 38 58 158 86.0000 77.6235 80.5 74.1905 
H t f H 78 88 81 258 86.0000 75.7224 78.5 85.8095 
3 3 " ? 82 893 90 265 88.3333 79.5247 86.5 81.9365 
4 4 f 1 90 87 88 166 88.6667 87.1294 74.5 78.0635 zZ 
« » 
DDRi- (ΠΚ... OAT- 〈 无 标题 ) | 四 编辑 器 -无 标题 2* 
[E C:\Documents and Settings\Ral 4 


5.22 标准 化 后 的 变量 


下 SAS - [输出 85] BE 


国 文件 (E) 编辑 (E) 查看 (W IAD 解决 方案 (5) 窗口 (W) T =ls| x| 
[E I A I ux - ΕΙ 


18 
14:25 Thursday, November 7, 2002 


1: id sex location scorel score?  score3 s Average St1 St2 St3 
1 m 1 80 80 88 258 86.0000 77.6235 80.5 73.3185 
2 Li 2 78 89 81 258 86.0000 75.7224 78.5 85.9452 
3 m 2 82 33 30 265 88.3333 79.5247 86.5 81.3363 
4 f 1 30 8? M 177 88.5000 87.1294 74.5 80.0000 = 
E EX ENS 


δβ sas - E- 《无 .. 7 国 第 5 章 .doc- Micros.. |B szot- 记事 本 | 
5.23 st3 变量 的 缺失 值 用 80 替代 


从 图 5. 22 可 以 看 出 ,Stl 值 是 对 原 变 量 scorel 的 标准 化 值 。St2 值 是 对 原 变 量 
score2 的 标准 化 值 。St3 值 是 对 原 变 量 score3 的 标准 化 值 。 图 5. 22 还 显示 每 个 人 每 次 


的 平均 成 绩 ( 见 Average 值 ) 。 


图 5. 23 中 , 当 原 始 变 量 score3 有 缺失 值 时 ,就 用 已 指定 的 均 分 (如 80 分 ) 蔡 代 , 请 上 


机 实习 。 


4». δή 


5712 用 TRANSPCSE 过 程 转 置 数据 


本 节 用 TRANSPOSE 过 程 将 数据 集 里 的 数据 进行 行列 转 置 , 即 每 行 的 个 案 号 变 成 


列 变量 ,原来 的 列 变量 变 成 行 变 量 。 


命令 格式 : 


PROC TRANSPOSE; 
VAR vl v2; /* 若 不 指定 变量 名 , 则 对 所 有 的 变量 转 置 * / 


例如 ,要 将 表 5. 1 的 数据 变 成 表 5. 2 所 示 。 
表 5.1 转 置 前 的 原始 数据 


OBS Α B ο 
1 20 30 40 
2 25 35 45 


35.2 转 置 后 的 数据 


OBS _NAME_ COLI COL2 
1 A 20 25 
2 B 30 35 
3 C 40 45 


为 此 ,编辑 出 程序 5. 26 的 命令 语句 。 
程序 5. 26: 


DATA tl; 

ΤΝΡΟΤ AB C; 

CARDS; 

20 30 40 25 35 45 

PROC PRINT; 

TITLE ' 转 置 前 的 原始 数据 

PROC TRANSPOSE; /* 行 变 量变 成 列 变量 ,原来 的 列 变量 变 成 行 变量 * / 
PROC PRINT; 

TITLE ' 转 置 后 的 数据 '; 

RUN; 


运行 程序 5. 26 产生 图 5. 24 所 示 的 结果 。 
从 图 5. 24 的 “日 志 ” 窗 口 看 .行列 转换 成 功 . 结 果 显 示 在 输出 窗口 。 


σα να 
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文件 {E) 编辑 (E) 查看 (YW) 工具 (D 解决 方案 (5) 窗口 (W) EHW 
υὃ υ«“«ὃ“ὃ“ὃἃ-ὃἃ“ἃ“ν υπ ουτε τς 
CIENETI 


RENDERE 14:25 Thursday. November 7, 2002 25 a| 
ms 4 B ο 


m 4 

2 5 5 4 

PEENE 14:25 Thursday, Noveaber 7, 2002 26 --ἡ 

ms με οί τα; 
1 
2 
3 


E EE 

B 日 志 -〈 无 标题 ) BE 
267 PROC TRANSPOSE; 原来 的 BN 变量 赤 成 行 亦 量 。#/ 
μπε: ἐξ - TERT 2 个 ; 


NOTES RACE Πα ian. 
EREE MEAE 
[d ΠῚ 
268 PROC PRINT: 
29 mr "EE: 
NOTE: AMEE woRK.DATAS VERDT 3 个 观测 


αὶ 
ud Τον Wisi C dated - 
E: 9.0! 
GU mh DES - 
: z 
加 输出 (无 标题 || 回 日 志 -《 无 标题.… πε τα 


图 5.24 数据 的 行列 转 置 


z Em 5 


. 试 举 一 个 用 “INFILE 语句 ” 读 取 D: Nmy. txt 纯 文本 的 数据 文件 的 例子 。 
试 举 一 个 用 "FORMAT 及 VALUE 语句 ”定义 数值 标签 的 数据 文件 的 例子 。 
试 举 一 个 数据 重新 编码 的 例子 。 

试 将 输入 的 日 期 输出 为 日 -月 -年 格式 。 

试 画 出 SEX 变量 的 条 形 图 。 

试 画 出 SEX 变量 的 圆 形 图 。 

. 试 画 出 AGE 变量 的 直方 图 。 

. 试用 PROC MEANS 过 程 统计 年 龄 的 均值 分 布 。 

. 用 PROC RANK 过 程 统计 年 龄 的 秩 和 分 布 。 

10. 试用 PROC TABULATE 制作 简单 的 成 绩 表 。 

. 试用 PROC UNIVARIATE 过 程 统 计 血 糖 的 详细 频数 分 布 。 


ο ο - σι σι 5- ο το - 


描述 统计 


数据 挖掘 的 第 一 步 是 计算 变量 值 的 频数 分 布 ,从 中 可 以 看 到 数据 的 特性 。 具 体 分 为 
单 变量 的 频数 统计 和 双 变 量 交 又 汇总 的 频数 统计 。PROC FREQ 过 程 可 以 做 单 变量 的 
频率 表 和 双 变 量 的 频率 表 。 

通过 频数 统计 不 仅 可 以 看 出 数据 分 布 ,而 且 还 可 以 检查 数据 输入 正确 与 否 。 如 当 检 
测 到 男性 堕胎 1 次 , 则 说 明 数 据 有 误 。 


61 A RQA E KERKE EII RKA 


611 FREQ 过 程 命 


在 FREQ 过 程 中 使 用 的 命令 语句 如 下 : 


PROC FREQ [选项 1] ; 

TABLES 变量 1 变量 2 [选项 2] ; 

TABLES 写法 

TABLES A-C ; /. 单 变量 的 频数 统计 。 相 当 于 TABIES ABC;*/ 

TABLES (A- B) * C ; /* 双 变 量 的 频数 统计 。 相 当 于 TABES A* CB* C; * / 
TABLES A* (B-C); /* 双 变 量 的 频数 统计 。 相 当 于 TABES A* BA* C;* / 

TABLES (ABC)* D;  /* 双 变量 的 频数 统计 。 相 当 于 TABIES Ax DBx DC* D; * / 
TABLES (AB) (Cx D); /* 双 变 量 的 频数 统计 。 相 当 于 TABIESA* CRx DBxCBxD7x/ 


若 无 TABLES 语句 , 则 对 FREQ 过 程 中 的 全 部 变量 进行 频数 统计 。 
WEIGHT vl; 7» 用 变量 νι (ΗΛ / 

BY νο; /* 按 变 量 巡 的 值 分 组 统计 * / 

1. [选项 1] 的 内 容 ( 任 选 1 项 ) 

DAT 数据 集 1; /* 若 省 略 数据 集 1 等 名 称 , 则 使 用 工作 区 中 新 建 的 数据 集 做 统计 * / 


ORDER= DATA; /* 按 数据 集 里 的 个 案 顺 序 显 示 * / 
OREER-FREQ; /: 按 频数 递减 地 显示 频率 表 , 最 大 频数 在 前 * / 


ORDEF= INIERVAL; 


2 描述 统计 


ORDER- FORMATTED; 


例 1; PROC FREQ DATA -— score ORDER— FREQ: 
2. [选项 2] 的 内 容 ( 任 选 1 项 ) 


(1) 统计 量 ( 任 选 1 项 ) 


TABLES sex [/EXACT]; /* 显示 大 于 2* 2 表格 的 Fisher 精确 检验 x* / 

TABLES sex /CHISQ; — /* 显示 卡 方 检验 及 基于 卡 方 检验 的 泊 松 卡 方 、 似 然 比 卡 方 . 曼 特 尔 - 享 撒 尔 
(antel-Haenszl) 卡 方 , 以 及 Phi 系数 、 列 联系 数 、Cramer 的 v. 2 * 2 表格 的 
Eisher 精 确 检验 * / 


此 外 ,还 有 CMH 、ALL 、 Measures 等 选项 。 
(2) 显示 统计 量 


TABLES sex [/EXPECTED]; /* 显示 期 望 频数 * / 
/ΠΕΝΙΑΤΙΟΝ;  /* 显示 偏差 * / 
/CELICHI2; — /* 显示 每 个 单元 对 总 体 卡 方 的 贡献 * / 


/CUMCOL; /x* 显示 列 累 积 百分比 * / 

AMISSIPRINT; /* 显示 缺失 值 的 频数 * / 

/SPARSE; /* 显示 TABIES 语句 中 的 变量 * / 

/MISSING; /* 把 缺失 值 当 有 效 值 统计 * / 

/LIST ; /* 慎 用 。 它 只 以 一 般 的 列表 方式 显示 频数 x* / 

/CU 于 数据 集 ; /x 若 TABIES 语 句 中 有 多 个 变量 表 , 则 存储 最 后 一 个 变量 表 里 的 变量 值 和 
频数 * / 


(3) 不 显示 统计 量 


TABLES sex /NOFRINT; /* 取消 表格 。 不 显示 TABIES 语 句 中 所 有 变量 的 频率 表 * / 
TABLES sex [/NOFREQ]; LES CIL 
/NOPERCENT; /* 不 显示 百分比 * / 


ΟΡΟ; / 不 显示 行 百 分 比 * / 
/NOCOL; /* 不 显示 列 百分比 * / 
/NOCUM; {κ 不 显示 一 维 频数 、 累 积 频数 和 百分比 * / 


例 2: 产生 二 维 表格 。 


PROC FREQ DATA= score ORDER- ERED ; 
TABLES sex* edu /MISSING CHISQ ; /* 第 1 个 变量 sex 是 行 变量 ,第 2 个 变量 eda 是 列 变量 * / 


例 3: 产生 三 维 表格 。 


PROC FREQ DATA—- score ORDER= FRED ; 
TABLES location sex* edu /MISSING CHISQ ; /* 第 1 个 变量 location 是 控制 两 个 子 表 的 变量 ,第 2 个 
变量 sex 是 行 变量 ,第 3 个 变量 eaa 是 列 变量 * / 


612 FREQ 过 程 与 其 他 过 程 的 连用 
PROC FREQ 过 程 不 仅 能 显示 单 变 量 的 频数 、 百 分 比 ,而 且 可 计算 和 显示 双 变 量 或 
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4. δή 


多 变量 的 频数 、 百 分 比 \ 卡 方 检验 、 相 关系 数 、 期 望 频数 等 。 


其 他 过 程 如 CHART 可 产生 频数 和 条 形 图 ,SUMMARAY 可 产生 频数 和 数据 集 ， 


TABULATE 可 产生 频数 和 表格 。 


据 )、 


62 单 变量 频数 分 布 


单 变量 频数 分 布 一 般 是 对 标 称 数据 (NOMINAL DATA, 也 称 定 类 型 数据 .名义 数 
次 序数 据 (ORDERNAL DATA ,也 称 定 序 型 数据 ) 计 算 频 数 。 如 性 别 (sex)、 文 化 水 
Cedu) 、 地 区 (location) 种族 (race) 等 是 标 称 数据 。 奖 金 等 级 .年 龄 组 分数 段 .工资 档 


次 等 是 次 序 变量 。 


为 3 


例 4: 计算 性 别 、 文 化 水 平 变量 的 一 维 频数 分 布 , 见 程序 6. Τα. 
程序 6. 1a: 

LIENAME IB 'D:\'; 

DATA IB.xt2; 

LAEEL edu- ' 文 化 水 平 ' sex- ' 性 别 ' 1— "EI xt= if Bl; 
INPUT id sex edu xt 1 @@ ; 

CARDS; 

001 1 1 8.1 3.1 002 2 2 9.1 2.8 

003 1 3 9.0 4.8 004 2 3 8.7 5.1 

00512.4.70062.6.2. 

PROC FREQ DATA- IB.xt2; 

TABLES sex edu; 

PROC PRINT; 

RUN; 


运行 程序 6. 1a 可 产生 图 6. 1Ca) 所 示 的 结果 。 
1. 频率 表 解 释 


频数 : 频次 。 出 现 的 次 数 。 

百分比 : 频数 /总 数 * 100%. 

累积 频数 : 各 组 频数 的 累积 。 

累积 百分比 : 上 下 各 组 百分比 的 累积 。 

频数 缺失 三 1: 说 明 有 1 人 的 数据 为 缺失 值 .而 且 没 有 参与 计算 。 


2. 分 析 图 6.1 的 频率 表 


图 6. 1(a) 是 性 别 和 文化 水 平 的 单 变量 频率 表 , 从 性 别 的 频率 表 看 ,sex 一 1 一 组 频数 
人 :, 占 总 人 数 6 人 的 50%. sex—2 一 组 频数 为 3 人 :, 占 总 人 数 6 人 的 5026. 


3. 把 缺失 值 当 有 效 值 统 计 
程序 6. 1b; 


BARO MRD EE IRO πόππε; Tow 而 种 td) μη 
[- J D*E őn: ar- Dalos 
E 14:21 Trurscay, Mcvenber 14, 200i 9 E 
ΕΤ πεα 过 得 
PG Fea: ma 


EIE 


Erra 


A a E 4 
Rit (EBARA ) 


(a) FUE itf 


SAS -[ 输 出 [= 
AIMO MAD πω TAD AUS ETE! 
ESĖ | = 3 

uq [x] 四 


6 Mb.sas ^ 


lu i 
[SET - 《无 标题 ..、 ΓΒΕ. (无 标题 》 


JE c:\Doaments and SettngsiRains | P 
(b) 单 变量 的 频数 统计 ( 含 缺 失 值 的 订 算 ) 
61 单 变量 的 频数 统计 结果 


LIENE IB 'D:V'; 

DATA IB.xt2; 

IABEL edu- "文化 水 平 ' sex- ' 性 别 ' 1— ' 含 磷 ' xc- HESS 
INPUT id sex edu xt 1 66 ; 

CARDS; 

001 1 1 8.1 3.1 002 2 2 9.1 2. 

003 1 3 9.0 4.8 004 2 3 8.7 5.1 

005 1 2 . 4.7 006 2 . 6.2 . 

PROC FREQ DATA- IB.xt2; 
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δικα: T. 


TABLES sex edu /MISSING; / * 把 缺失 值 当 有 效 值 统计 * / 

PROC PRINT; 

RUN; 

运行 程序 6. 1b 可 产生 图 6. 1Cb) 所 示 的 结果 。 

图 6.1(b) 是 性 别 和 文化 水 平 的 单 变量 频率 表 , 但 缺失 值 1 人 也 参与 频数 和 百分比 统 
计 。 从 文化 水 平 的 频率 表 看 ,sex 一 2 一 组 有 1 人 的 文化 水 平 没有 填写 而 作为 缺失 值 计 
算 , 它 占 总 人 数 6 人 的 16:67 26 ,是 不 小 的 比例 。 所 以 在 计算 时 要 考虑 缺失 值 的 排除 。 
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在 实际 工作 中 ,更 多 的 是 统计 比较 复杂 的 问题 诸如 性 别 与 文化 水 平 、 性 别 与 收入 、 年 
龄 与 收入 之 类 双 变 量 交叉 发 生 的 频数 问题 ,以 及 双 变 量 结合 的 强度 问题 。 这 时 应 该 考虑 
用 PROC FREQ 过 程 。 

用 PROC FREQ 过 程 进行 双 变 量 交叉 时 还 可 以 对 温度 V 气温 两 个 区 间 数 据 (Interval 
data) 和 年 龄 .收入 成绩、 血压 .体重 等 比例 数据 (Ratio data) 进行 均值 标准 偏差 、 全 距 、 
WE RE . 偏 度 等 测量 。 


631 双 变 量 频数 统计 的 过 程 命令 
令 


双 变 量 频数 统计 的 过 程 命令 语句 如 


PROC FREQ DATA- 输入 数据 集 ; 
TABLE A* (B C)/CHISQ EXACT; 

或 TABIE 页 * A* B* C/CHISQ EXACT; 

即 TABIE Ji * fj * 列 /CHISQ EXACT; 

或 TABIE 11 * Fi) /CHISQ ; 


关于 FREQ 过 程 的 详细 命令 及 用 法 详 见 6.1.1 Τι 
632 “ 定 类 - 定 类 ” 双 变 量 交叉 汇总 与 结合 测量 


βἱ5. FREQ 主 命令 和 TABLE 子 命令 及 选项 的 应 用 简 例 。 
程序 6.2:“ 定 类 - 定 类 ” 双 变 量 交叉 汇总 与 结合 测量 。 


DATA; 

DATA fl; 

INEUT sex edu GG ; 

CARDS; 
342312221122.32. 


5 


PROC FREQ ORDER- FRED; 
TABLES sex* edu/CHISQ EXACT ; /* H-E 7r Ap ti 98 BK DF e Rd / 
TITLE ' 两 维 频率 表 , 按 频 率 值 降序 排序 '; 


2 描述 统计 
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RUN; 


运行 程序 6. 2 产生 图 6. 2 和 图 6. 3 所 示 的 结果 。 


国 文件) RRD EEV IAV 解决 方案 G) WOW WHW EI 


x 
||  ""z|DseWéenn:su:5-mop9us:oe 
" TUNER ,RMNTECUCSUERERE 16:12 Friday, November) 
Er FRED 过 程 
Hre MERRE., fes sex * edu πε 
ΒΗ [29 reas MENER. A| 
sex edu 
LT 
E 2l 3l 1l 4| $i 
ακοή 和 
2 2 | 1 o 0 3 
33.33 | 16.67 | 0.00 | 0.00 | 50.00 
$6.67 | 33.33 | 0.00 | 0:00 
$6.67 | 100.00 | 0:00 | 0:00 
— 和 
1 1 | 0 1 1 8 
16.67 | 0.00 | 16.67 | 16.67 | 50.00 
39:33 | 0:00 | 33:38 | 33:83 
33:38 | 0:00 | 100.00 | 100.00 
Ine ———Ó— M 
合计 3 1 1 1 n 
50.00 — 16.67 16.67 — 16.67 100.00 
频数 缺失 = 2 
[να] 
—M A 


= 加 
GEL aj sas NN [bh - (1) CaS- (无 标题 ) 国 程序 编辑 器 - (3... 


图 6.2 由 TABEL sex* edu 产生 的 交叉 汇总 表 


1. 单元 内 容 分 析 


如 何 正 确 观察 交叉 汇总 表 中 的 百分比 ,是 关系 到 会 不 会 分 析 比 较 双 变量 之 间 关 系 的 
技术 问题 。 

比较 的 准则 是 : 如 果 自 变量 在 行 上 则 看 行 百 分 比 , 自 变量 在 列 上 则 看 列 百分比 。 

如 图 6. 2 所 示 ,性 别 是 自 变量 . 且 在 行 上 ,因此 要 看 行 百 分 比 。 从 图 6.2 看 : 性 别 为 2 
(女性 ) ,文化 水 平 为 2( 大 专文 化 ) 的 有 2 人 , 占 女 性 总 体 3 人 中 的 33.33%( 行 百分比 ), 比 
例 最 大 。 说 明 在 女性 中 ,大 专文 化 水 平 的 人 最 多 。 

其 他 分 析 以 此 类 推 。 


2. 双 变 量 结合 程度 


从 图 6. 3 看 .由 于 sex * edu 属于“ 定 类 - 定 比 ”类 型 的 数据 .但 为 了 说 明 统 计 分 析 的 方 
法 暂 认 为 是 “ 定 类 - 定 类 ”类 型 的 数据 . 即 看 莎 姆 斯 的 D 系数 或 Φ 系数 。 因 为 系数 都 比较 
大 (大 于 0.3) ,说 明 两 个 样本 呈现 相关 。 


3. 总 体 推论 


HO: 行列 变量 互 为 独立 。 

双 变 量 结合 测量 的 核心 是 卡 方 检 验 。 它 检验 “行列 变量 互 为 独立 ”的 总 体 推论 。 

检验 : 从 图 6. 3 看 .样本 小 ,而 且 卡 方 3. 3333 .自由 度 3. 计 算 后 的 显著 性 水 平 为 
0. 3430.0. 3430K F a 值 0.05. 所 以 没有 足够 的 理由 拒绝 H0, 即 总 体 上 说 ,sex 和 edu XX 
变量 互 为 独立 。 
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- E- (ΡΠ : 
AXFO δα SEV IAD 解决 方案 G) SOW WHW 


~ e ατα AE 


WARNING: 缺失 25% 的 数据 。 


Æ 6.3 由 TABEL sex * edu 产生 的 结合 测量 
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ΒΙ 6: 程序 6.3 中 的 数据 是 高 血压 .脉搏 、 血糖. 日 抽烟 量 及 性 别 方面 的 数据 , 试 计算 
日 抽烟 量 与 高 血压 的 关系 (分 组 后 成 为 “ 定 序 - 定 序 ” 数 据 )、 高 血压 与 血糖 的 关系 ( 定 比 - 定 
EE) 、 性 别 与 血糖 的 关系 ( 定 类 - 定 比 )。 

程序 6.3:“ 定 比 - 定 比 ?变量 的 测量 。 


DATA xt; 

INPUT sex location cy dy np xt 3.1; 

LABEL location- ' 地 区 ' sex- ' 性 别 ' cy- ' 抽 烟 量 : 支 ' 
mp- "脉搏 ' ay- ' 低 压 ' xt= "if bl; 

CARDS; 

111585 66 8.5 

2 12088 68 7.3 

1 2 30 90 70 8.6 

2225 90 70 7.8 

11359575 9.2 

22359176 9.0 

; 

PROC FORMAT; 
VALUE: cyF IOW- 10- 1 11- 20- 2 21- HIGE 3; 
VALUE dyF IOW- 85= 1 86- 90- 2 91- HIGH- 3; 
FORMAT cy cyF. Dy dyF.; 

PROC FREQ; /* 产生 图 6.4* / 

TABLE πρ» xt/ ALL; 


运行 程序 6.3 产生 图 6. 4 所 示 的 结果 。 
结果 分 析 : 


1. 双 变 量 结 合 程度 
从 图 6.4 看 ,由 于 mp * xt 属于 “ 定 比 - 定 比 ”类 型 的 数据 ,应 该 观察 CORR. 系数 或 
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图 6.4 mp* xt 的 结合 程度 
Pearson 系数 ,该 系数 0.6625 比较 大 ,说 明 两 个 样本 相关 。 
2. 总 体 推论 
但 由 于 样本 量 小 ,无 法 进行 总 体 推论 。 
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例 7: 用 程序 6. 3 中 的 数据 ,命令 语句 见 程序 6. 4。 
程序 6. 4:“ 定 序 - 定 序 ” 变 量 的 测量 。 


DATA xt; 

INPUT sex location cy dy mp xt 3.1; 

LABEL location- "Ji [X ' sex- ' 性 别 ' cy- "f dp ΠΕ zx" 
mp- "脉搏 ' ay- ' 低 压 ' xt= "ifi bl; 

CARDS; 

111585 66 8.5 

2 1 20 88 68 7.3 

1 2 30 90 70 8.6 

2 2 25 90 70 7.8 

11359575 9.2 

223591 76 9.0 

; 

PROC FORMAT; 
VALUE cyF IOW- 10-1 11- 20- 2 21- HIGH- 3; 
VALUE dyF IOW- 85-1 86- 90- 2 91- HIGH- 3; 
FORMAT cy cyF. Dy dyF.; 

PROC FREG; / 产生 图 6.5* / 

TABLE cy * dy/NOPRINT ALL; 
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运行 程序 6.4 产 生 图 6. 5 所 示 的 结果 。 
TOSAS - [GB - 【无 标题 7 PROC FREQ 正在 云 行 了 
Μπι wD Ευ) TAD ΜΑΤΣ) WNW EHW 
-DS e a E 
SAS - [输出 - DIERE) PROC FREQ 正在 运行 1 
we 
Sess 
Scners ED D CIR 
Somers ÉI Ὁ RIC 
pucr 
cum πὲ 
cim t 
RE 
m 
(b) 卡 方 检验 
6.5 “ 定 序 - 定 序 " 变 量 的 测量 
结果 分 析 : 
(1) 单元 内 容 分析 


见 
(2 
从 


图 6. 5(a) ,可 参考 图 6. 2 的 分 析 。 
) 双 变 量 结合 程度 


图 6. 5(b) 看 ,由 于 cy* dy 属于 “ 定 序 - 定 序 ” 类 型 的 数据 ,应 该 


观察 Tau-b 系数 ,该 


2 描述 统计 
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系数 0. 9286 很 大 (接近 100%) ,说 明 两 个 样本 强 相 关 。 
(3) 总 体 推论 
Ho: 行列 变量 互 为 独立 。 
双 变 量 结合 测量 的 核心 是 卡 方 检验 。 它 检验 “行列 变量 互 为 独立 ”的 总 体 推 论 。 
检验 : 从 图 6.5(b) 看 ,样本 小 ,而 且 卡 方 18.0000, 自 由 度 16 ,计算 后 的 显著 性 水 平 为 0. 
3239.0. 3239 大 于 a 值 0.05, 所 以 不 能 拒绝 Ho, 即 总 体 上 说 ,sex 和 edu 双 变 量 互 为 独立 。 
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UNIVARIATE 过 程 是 对 数字 型 变量 的 最 详尽 描述 。 它 除了 具有 Means. 
Sammary、Tabulate 等 过 程 的 功能 及 统计 量 外 ,还 产生 众 数 、 中 位 数 、 峰 度 、 偏 度 、 四 分 位 
数 .频率 表 等 最 详尽 的 统计 量 。 

此 外 UNIVARIATE 还 产生 以 下 统计 量 : 

。 变量 的 极 值 ; 

。 几 幅 分 布 图 ,如 茎 叶 图 . 盒 图 、 正 态 概率 图 ; 

。 数据 分 布 的 正 态 性 检验 等 。 


641 举例 


程序 6. 5: 

LIBNAME IB 'D:\'; 

DATA IB.xt2; 

LABEL edu- ' 文 化 水 平 ' sex- ' 性 别 ' = "Gr E xt=' 血 糖 '; 

INEUT id sex edu xt 1 ; 

CARDS; 

0011198.13.1 

002 2 2 9.1 2.8 

003 1 3 9.0 4.8 

0042 38.7 5.1 

005 12 . 4.7 

0062.6.2. 

PROC UNIVARIATE DATA- IB.xt2 NORMAL; 
VAR L xt; /* HL BE RUBER d EET * / 
OUTPUT OUT- UNIL; 

PROC PRINT; 

RUN; 


运行 程序 6. 5 可 产生 图 6. 6 所 示 的 结果 。 
从 图 6.6(a) 看 .这些 被 访 者 的 血液 中 平均 含 磷 4. 1, 大 于 正常 值 。 标 准 偏 差 为 
1. 06536379 表明 变异 性 突出 , 且 为 偏离 均值 之 上 。 
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(b) 四 分 位 数 和 最 大 最 小 值 
6.6 含 磷 数 据 的 描述 
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T SAs -[ 输 出 -〈 无 标题 ) ] BEE 
BARO MEO SEV IAD FAJRO EOW) MHD EE 
JE EIE IN EC E- EE TEC) 

ED 
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(c) 缺失 值 统 计 


Ὑ' SAS -[ 输 出 - 《无 标题 》1 La 
CEN ΙΙΙ 


IE πι Hii DuwH|éA':*--7-|9g t 0e 


丫 果 
I: 4 Univariate: SAS 
BHE Prnt: Sas RAE 析 验 
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(4) 正 仿 性 检验 
6.6 (48) 


而 且 学 生 t 4r f (Lg t=8. 605397 ,检验 概率 “Pr 二 |t|l” 值 为 0.0010 ,很 显著 。 

图 6.6(b) 显 示 四 分 位 数 和 最 大 最 小 值 各 5 个 .这 对 于 分 析 数 据 的 异常 值 很 有 帮助 ， 
一 般 要 删除 数据 中 的 这 些 最 大 、 最 小 值 。 

图 6.6(c) 显 示 出 有 1 个 人 的 数据 缺失 ,缺失 值 占 总 个 案 的 16. 67 26 ,比例 很 大 应 该 删 
除 有 缺失 值 的 个 案 。 

从 图 6.6(d) 正 态 性 检验 看 ,Shapiro-Wilk 的 W 值 0. 828117 太 小 ,其 检验 的 显著 性 
水 平 0.1347 又 太 大 , 即 大 于 a 值 0.05, 所 以 不 能 拒绝 HO 假设 ,表明 数据 基本 上 呈现 正 态 
分 布 。 

说 明 : 按 此 法 可 对 其 他 数字 型 变量 进行 描述 


" 


642 ”UNVARAIE 过 程 命令 


. 过 程 命令 的 格式 


PROC UNIVARIATE DATA= 已 建 的 数据 集 a PLOT FREQ MORMAL; 
VAR vl v2; 
[BY v3;] 


δικα: cd 
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[FREQ v4;] 

[ID v5;] 

OUTPUT aoOr= 输 出 数据 集 V— v11 v12 PCTLPTS- 25 50 FCTINAME- P25 P50 ; 

2. 选项 说 明 

* DATA= 王 已 建 的 数据 集 a: 数据 集 的 名 称 ( 如 a) ,与 DATA 步 指定 的 名 称 要 一 致 。 

* PLOT: 只 要 求 画 出 散 点 图 。 

* FREQ. 只 要 求 输出 频率 表 。 

* MORMAL; 只 要 求 输 出 正 态 性 检验 的 统计 量 。 

。 BY v3; 要 求 按 v3 变量 值 排序 个 案 ,可 省 略 。 

* FREQ v4; 要 求 计算 v4 变量 的 频数 分 布 ,可 省 略 。 

* ID v5; 用 v5 变量 值 的 前 8 个 字符 命名 5 个 最 小 值 和 5 个 最 大 值 ,不 可 省 略 。 

e V—v11 v12: v11 变量 名 与 “VAR vl v2;” 中 的 v1 对 应 ,v12 变量 名 与 “VAR vl 
v2;” 中 的 v2 对 应 。 

e P25 P50: P25 Œ% Πλ Sj" PCTLPTS— 25 50;” 中 的 25 对 应 ,表示 百 分 位 数 的 名 
称 。P50 变量 名 与 “PCTLPTS 二 25 50;” 中 的 50 对 应 ,表示 百 分 位 数 的 名 称 。 

例 8: 百 分 位 数 的 名 称 的 输出 。 

程序 6.6: 将 上 例 的 OUTPUT 语句 改 为 “OUTPUT OUT= 输 出 数据 集 V= 

ν11 v12 PCTLPTS 一 25 50", 


DATA xt2; 

LABEL edu- ' 文 化 水 平 ' sex- ' 性 别 ' 1- A BE xt=' 血 糖 '; 

INPUT id sex edu xt 10 8 ; 

CARDS; 

00111 8.1 3.1 002 2 2 9.1 2.8 

003 1 3 9.0 4.8 004 2 3 8.7 5.1 

005 1 2 . 4.7 006 2 . 6.2 . 

PROC UNIVARIATE DATA- xt2 NORMAL; 

VAR xt; /* 血糖 描述 统计 * / 

ID id; /* 用 ia 个 案 号 的 前 8 个 字符 命名 5 个 最 小 值 和 5 个 最 大 值 。 便 于 查找 * / 

OUTPUT OUT- ΟἿΣ N= L1 ΕΟΤΙΡΕΕ;- STD FCTLPTS- 25 50 
PCTINAME- P25 P50 ; 

PROC PRINT; 


RUN; 


运行 程序 6.6 可 产生 图 6.7 所 示 的 结果 。 
从 图 6.7 看 ,用 “ID id;” 语 句 时 可 以 一 目 了 然 地 查 出 哪些 个 案 是 最 大 值 和 最 小 


fü . mi H..HH"PCTLPRE-— STD ΡΟΤΙΡΤΕ-- 25 50” 语 句 可 以 观察 到 第 几 个 百 分 位 数 
的 值 。 
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Ὑ' σὰς - [输出 - 《无 标题 〉] BE 
国 文件 E) RSO 查看 (V) 工具 (D 解决 方案 (5) 窗口 (W) 帮助 (H) -ls|x| 
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Er 
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图 6.7 "ID id; " &"PCTLPRE-—STD PCTLPTS-—25 50"i& 4 μθ $6; tH 


643 计算 方法 


1. 统计 检验 


检验 : 

HO; 总 体 均 值 为 0。 

检验 值 : 采用 Student fj T—(x ^ N'?5/S 

由 T 值 通过 查 表 或 计算 获得 显著 性 水 平 P 值 :P 值 二 值 0.05, 则 拒绝 “总 体 均值 为 
0” 的 Ho 假设 。 


2. 正 态 性 检验 


当 指 定 “PROC UNIVARIATE NORMAL:;"i& &Jlf , UNIVARIATE 过 程 假设 该 样 
本 数据 是 取 自 正 态 分 布 的 总 体 ,并且 给 出 一 个 检验 的 统计 量 。 

当 样 本 量 小 于 等 于 2000 时 . 则 进行 Shapiro-Wilk 检验 的 统计 量 W; 当 样 本 量 大 于 
2000 时 , 则 采用 Kolmogorov 检验 的 统计 量 D。 

当 样本 量 大 于 6 时 .Shapiro-Wilk 检验 的 统计 量 W 的 显著 性 水 平 ,由 Royston 近似 
正 态 变 换 获 得 。 
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PROC CHART 过 程 除了 产生 频率 表 外 ,还 产生 水 平 直 方 图 (或 水 平 条 形 图 )、 垂 直 
直方 图 (或 垂直 条 形 图 )、 圆 形 图 .立体 图 Cblock plot) 和 星 形 图 。 
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4». Hiis € d 


直方 图 比 条 形 图 更 能 充分 地 描述 数据 。 条 形 图 只 能 描述 性 别 等 nominal( 标 称 、 定 类 ) 数 


据 , 它 测量 不 到 区 间 。 直 方 图 适宜 于 interval IX [8] 、 定 距 ) 数 据 和 ratio( 比 例 、 定 比 ) 数 据 。 
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PROC QHJART 过 程 命令 
过 程 命令 的 格式 如 下 : 


PROC CHART DTm= 已 建 的 数据 集 ; [BY v1;] 


v2 [选项 11; 
νο [选项 1); 
νο [选项 1); 
νο [选项 11; 
νο [选项 1]; 


652 CART 的 选项 1 


1. HBAR—STAR 中 的 公共 选项 1 


选项 1 如 下 : 
HEAR v2 /DISCRETE; /* 产生 标 称 定 类 ) 变 量 的 离散 值 * / 


MISSING; /x* 把 缺失 值 当 作 有 效 值 计算 * / 

/SUMWAR= v2; /* 计算 变量 妇 的 均值 总和、 频数 * / 

AMIDFOINTS- 1 2 3; /* 中 心 值 ,可 以 是 12345 或 246 等 */ 

/FREQ v; /* 按 变量 v 分 类 。 将 同类 中 变量 v 的 和 当 作 频数 x* / 

Mrs= 最 小 值 最 大 值 ; /* 表示 FREQ. ΕΟΤ. CFREQ, CECT, SUM, MEAN 轴 上 的 最 小 值 和 最 大 值 。 
车 只 指定 一 个 值 , 则 被 当 作 最 大 值 * / 

/TYPE- FREQ; / 默认 为 用 每 个 条 形 或 区 段 ,表示 某 变 量 值 或 范围 所 出 现 的 频数 * / 


/TYPE- SUM; /* 与 选项 SUMAR 2 连用 时 , 则 按 如 分 类 计算 出 只 值 之 和 */ 
/TYPE- MEAN; /* 与 选项 SIMWAR= V2 连用 时 , 则 按 v2 分 类 计算 v2 值 的 均值 * / 
例 9: 在 程序 6. 3 后 面 增 加 HBAR xt/SUMVAR- xt 命令. 见 程序 6.7。 


程序 6.7: 


DATA xt; 

TABEL locatione ' 地 区 ' sex- "PES * cr "抽烟 量 : 支 ' wp- ΚΒ" 
dy- 低压 ' xt= "ifi Bl"; 

INEUT sex location cy dy np xt; 


111585 66 8.5 
2 12088 68 7.3 
1 2 30 90 70 8.6 
2 2 25 90 70 7.8 
113595759.2 
22359176 9.0 
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PROC CHART; /* 产生 图 6.8. / 
HEAR xt/SUMVAR- xt. TYPE- MEAN; 
PROC CHART; /* 产生 图 6.9. / 
HBAR xt/GROUP- sex SUM/AR- xt TYPE MEAN; 
PROC CHART; /* 产生 图 6.10. / 
HBAR xt/GFOUP- sex SUBGRCUP- location SUM/AR- xt TYFE- MEAN; 


运行 程序 6.7 产生 图 6. 8 至 图 6. 10 所 示 的 结果 (平均 血糖 的 直方 图 ) 。 


πι SAs - [输出 - 《无 标题 》 ] BEI 
文件 (E) RRO EEV IAD 解决 方案 (3) 窗口 (w) MD EIE 
[I-T ———————calmsmueu:met-i»soe 
— "8 mur 5 
Midpoint Frea Mean 
7.5 1 7.30000 
8.1 1 7.80000 
8.7 2 8.55000 
9.3 Μ.ὄἔὄΞ-Ξ- Ὁ; ;;;;;;;, 2 9.10000 || 
LR p e 
1 2 3 4 5 8 T 8 9 
πια 
ἔνα [Ες Τι | 加 输出 -〈 无 标题 .四 日 志 -〈 无 标题 | [ειδος σα το zo: 
E£ O | 加 北京 大 学 -Meros.. ||P E. E E T | CEET 


图 6.8 血糖 综合 直方 图 


图 6. 8 是 由 “PROC CHART; HBAR xt/SUMVAR-— xt TYPE— MEAN ;" 3: ff ir 
令 产 生 的 综合 直方 图 。 有 1 人 血糖 平均 7. 30000 £6 1 人 血糖 平均 7. 80000, 有 2 人 血糖 
平均 8.55000, 有 2 人 血糖 平均 9. 10000 ,都 是 高 血糖 。 

图 6.9 是 由 “PROC CHART: HBAR κι GROUP — sex SUMVAR — xt TYPE— 
MEAN; ”过 程 命令 产生 的 综合 直方 图 。 


下 SAS - [输出 -〈 无 标题 》] ΒΞΙΕ 
文件 {E) 编辑 (E) 查看 (VW) 工具 (D 解决 方案 (3) SOW WWW =la xj 
πμ a EA E 
sex ΠΕ πια - 

Midpoint Freq Mean 


0.00000 
0.00000 
8.55000 
3.20000 


7.30000 
7.80000 
0.00000 
3.00000 


«| επι 
«44 nd = z CESEN 
-记事 本 各 北京 大 学 - Micros... [58 sas - iih - Cx... 图 第 6 阐 描述 统计 …. αμ 


6.9 按 地 区 分 的 血糖 直方 图 


从 图 6.9 看 : 先 按 性 别 粗 分 为 2 组 。 区 间 中 点 (Midpoint) 的 8.7 表示 血糖 8. 4 一 9.0 
的 有 2 人 ,区 间 的 中 点 9. 3 表示 血糖 9.0 一 9.5 的 有 1 人 。 而 不 是 血糖 8.7 的 有 2 人 ,; 血 
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9 9.3 的 有 1 人 。 
余 者 以 此 类 推 。 
图 6.10 是 由 以 下 命令 产生 的 : 


PROC CHART; HBAR xt/GROUP- sex SUBGROUP- location SUMVAR- xt TYPE- MEAN; 


T SAS - [输出 - 《无 标题 》] BE 
| 国 文件 (E) 编辑 (E) SEV 工具 (D 解决 方案 (3) BOW EHW TFT 
ην — —————GjosuHieu|:smse-i»ga 0e d 
[i ES πα a 


符号 lotion ”符号 location 
1 1 2 2 


图 6.10 按 性 别 分 的 并 进一步 按 地 区 分 的 血糖 直方 图 


先 按 性 别 粗 分 为 2 组 ,每 组 的 条 形 再 详细 按 location — 1 和 location — 2 两 种 水 平 画 
出 条 形 。 所 以 最 后 这 种 直方 图 比较 直观 。 


2. 专用 于 HBAR,VBAR 和 BLOCK 图 形 中 的 选项 


PROC CHART; 
HBAR xt/GROUP- sex 
SUBGFEOUP- location 
IEVEI=n; /* "4" HBAR xt" 中 的 变量 站 是 连续 型 的 变量 时 可 用 IEVEL- n 
指定 要 输出 几 条 条 形 / 


例 10: 指定 LEVEL — n. J.fJF 6.8. 
程序 6.8: 


DATA xt; 

IABEL location- ' 地 区 ' sex- ' 性 别 ' cy- ' 抽 烟 量 : 支 ' mp= ' 脉 搏 ' 
dy ' 低 压 ' xt= ' 血 糖 '; 

INEUT sex location cy dy np xt; 

CARDS; /* 血糖 5 单位 以 下 , 磷 3 单位 以 下 为 正常 x / 

111585 66 8.5 

212088 68 7.3 

123090 70 8.6 

222590 70 7.8 

113595 75 9.2 
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223591 76 9.0 
PROC FORMAT; 
PROC CHART; 
BLOCK xt/SUBGFOUP- sex SUMVAR- xt TYPE-MEAN ;/* 产生 图 6.11 上 半 图 */ 
BLOCK xt/SUBGROUP- sex IEVELS- 2 SUMVAR- xt TYPE- MEAN; /* 产生 图 6.11 下 半 图 * / 


运行 程序 6. 8 产生 图 6.11 所 示 的 结果 。 


下 SAS - [输出 - 《无 标题 》] 


DXO SRO SEV IAD MAIRO FOW FHH ΞΕ 


mm ——————cj|n»*Wieu!:sme-|»€&usoe 


398 of xt by κ 
EN 
EJ £7 Ei 
Ed 22| T 22| 
2z 图 Ἡ 图 
23 Β n" ΒΒ 
22 22 Ἡ e 
-|22 58] |--------|11} |- 
/ [8] /las ΤΗ "a / 
/ B 8, ἢ, ΙΙ / 
/ v / Bv / Wy / Wi / 
/ / / / 
f 03 τα / 85 / $0 / 
eee eee etel 
7.5 81 DE 3.3 
mu 


= 
EX" 
LLUEILE 


图 6.11 有 无 LEVELS 一 选项 的 立体 图 


从 图 6.11 看 到 ,上 半 图 没有 指定 LEVELS 王 2, 所 以 按 默 认 的 刻度 画 出 4 条 条 形 。 
因为 图 6. 11 的 下 半 图 指定 了 LEVELS 王 2, 所 以 只 画 出 2 个 条 形 。 男 性 (用 1 表示 ) 比 女 
性 (用 2 表示 ) 平 均 血 糖 高 。 不 过 还 是 不 清晰 ,可 再 观察 水 平 直方 图 (图 6. 12). 


3. 专用 于 HBAR,VBAR 图 形 中 的 选项 


PROC CHART; 
HBAR xt/GFOUP- sex 
SUBGROUP- location 
IEVEI=n — /* 当 “HBAR xt" tP ff] Ze ΒΕ 区 是 连续 型 的 变量 时 可 用 IEVEI=n 指 定 要 输出 几 条 条 


形 */ 
Rn /x* 产 生 一 条 参考 线 , 它 与 TYFE= 选 项 连用 , 当 TYPE FREQ 时 它 表示 频数 , 当 TYPE 
一 FCT 时 表示 百分比 , 当 TYPE- SUMIMEAN 时 ,分别 表示 和 数 或 均值 * / 


例 11: 指定 LEVEL—n.REF—2. UJ. fg)y 6.9. 
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程序 6. 9 : 


DATA xt; 

IABEL location- ' 地 区 ' sex- ' 性 别 ' cy- ' 抽 烟 量 : 支 /日 " 
πιο "kb * ay- ' 低 压 ' xc- "if Ben; 

INEUT sex location cy dy mp xt; 

CARDS; /* Βὲ 3 单位 以 下 为 正常 x*/ 

111585 66 8.5 

2 1 20 88 68 7.3 

1 2 30 90 70 8.6 

2 2 25 90 70 7.8 

11359575 9.2 

223591 76 9.0 


运行 程序 6. 9 产生 图 6.12 所 示 的 结果 。 


下 SAS - [输出 -〈 无 标题 )》] 


JEZ 


mur 
Mean 
7.30000 
7.80000 
8.55000 
3.10000 


Novesber 17, 2002 149 


mu 

Mean 

7.550000 

1.825000 
«cca κ"! mzoa 
记事 本 | 司 北京 大 学 - ΜΕΣΗ ΤΕ απ 描述 统计 | LLUILE MAI 


6.12 平均 血糖 的 直方 图 


比较 图 6. 12 上 半 图 和 下 半 图 可 以 看 出 : 平均 血糖 虽然 没有 实质 性 的 改变 ,但 
图 6. 12 的 上 半 图 没有 指定 LEVELS 王 2. 所 以 按 默 认 的 刻度 画 出 。 又 因为 图 6. 12 的 下 
半 图 指定 了 LEVELS 王 2. 所 以 只 画 出 2 个 条 形 。 男 性 (用 A 表示 ) 比 女性 (用 B 表示) 平 
均 血 糖 高 。 

参考 线 二 2 在 这 里 显得 不 太 重 要 。 


as sagn 1x7 


4. 专用 于 HBAR 图 形 中 的 选项 


PROC CHART; 
HEAR /TYFE- FREQ; /* 在 水 平 直方 图 的 右 侧 显示 每 个 条 形 的 频数 * / 
/TYPE=CEREQ; — /* 在 水 平 直方 图 的 右 侧 显示 每 个 条 形 的 累积 频数 * / 
/TYPE- SUM; /* 见 6.5.2 节 ,与 选项 SIMWAR=V2 连 用 时 , 按 如 分 类 计算 voll κ / 
/TYPE- MEAN; /* 见 6.5.2 节 ,与 选项 SuwaR- v2 j£ FH d 如 分 类 计算 如 的 均值 */ 
/TYPE= PERCENT; /* lh 6.5.2 节 ,计算 个 案 的 百分比 * / 
/TYPE-CEERCENT; /* 见 6.5.2 节 ,计算 个 案 的 累积 百分比 */ 
/TYPE=NOSTAT; 。 /x* 不 显示 统计 量 */ 
说 明 : 
。 有 /TYPE = fH ZZ/SUMVAR 一 选项 时 ,CHART 过 程 输出 FREQ, CFREQ, 
PERCENT 和 CPERCENT fii. 
* 4H/TYPE— HAfj/SUMVAR-3ESlii . CHART 过 程 输出 FREQ, MEAN 值 。 
* dj/TYPE—SUM 时 CHART 过 程 输出 FREQ fil SUM ffi. 
例子 见 程序 6. 10. 
程序 6. 10: 
DATA xt; 
LABEL location- ' 地 区 ' sex- ' 性 别 ' cy= ' 抽 烟 量 : 支 /日 ' 
np- "Bk fi ' dy- ' 低 压 ' xt= "ifi ΒΕ"; 
INPUT sex location cy dy mp xt; 
CARDS; 
111585 668.5 
2 1 20 88 68 7.3 
123090 70 8.6 
2225 90 70 7.8 
113595759.2 
2 2 35 91 76 9.0 
PROC CHART; 
VBAR xt/GROUP- sex TYPE- MEAN; 
HBAR xt/GREOUP- sex TYPE- MEAN IEVELS- 2; 
运行 程序 6.10 产生 图 6.13 所 示 的 结果 。 
从 图 6. 13(b) 看 ,有 /TYPE 王 但 无 /SUMVAR 王 选项 时 ,CHART 过 程 输出 FREQ, 
CFREQ, PERCENT 和 CPERCENT 值 ,但 不 产生 MEAN 值 。 


5. 绘制 圆 形 图 
程序 6.11: 


DATA xt; 


IABEL location- ' 地 区 ' sex- "ΗΕ" cy- ' 抽 烟 量 : 支 /日 " 
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T3388 Tuesday, 


Wventer 13, 


HEHHIHHIHHISIEHESHHEHHEE 
i 


- Wideoint 


.1-1 al 
AB. Eo escas |m merit] 


(a) H “ VBAR x/GROUP=sex TYPE-MEAN;" "Æ H TIFLA S 


LINES -- 


ΕΠ πε; «δώ IAD PADO 窗口 (w) EWA 


EAN a EE 
- 


Cum, Cum, 
Midpoint Freq Freq Percent Percent 


1 7.8 0 9 0.00 3.00 
DM ————E 8 50:00 οὐοῦ 
2 7.8. eeeeneeemceremerreen 2 8 23.38 Bids 
$8.0 Moto opi 1 6 16.67 — 100.00 


€————MÓÁ—— 


1 2 3 
315: E 
ΤΑΝ πρ Pss TYFE 


" 
ΠΗ GROUP sex ΤΥΡΕΞΙ cies ἐς EVELS-2: 
Π3 αδειών δν 


ες d 


ΜΑΙ "ERE MEAN, 
E urat 


ZG ὁ i 
[TETTENEETIETUTINN EELE 
(b) H “ HBAR xt/GROUP-sex TYPE-MEAN LEVELS= = 生 的 水 平 直 方 图 


6.13 两 种 直方 图 


np- "脉搏 ' ay- "ΗΕ * xc- "ifi fi"; 
INPUT sex location cy dy np xt; 
CARDS; 
11 15 85 66 8.5 
2 1 20 88 68 7.3 
1 2 30 90 70 8.6 
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222590707.8 
11 35957ΠἼ59.2 
223591 Ἴ69.0 
PROC CHART; 
PIE xt/MISSING SUMVAR- xt TYPE— FREQ TYPE- MEAN; 
PROC PRINT; 
PROC CHART; 
PIE xt/MISSING TYPE- FRED; 


PROC PRINT; 


运行 程序 6. 11 产生 图 6. 14 所 示 的 结果 。 
从 图 6.14 看 ,难于 既 产 生 圆 形 图 中 的 频数 又 显示 出 均值 ,只 能 分 开 产生 输出 。 平 均 
血糖 为 7.5 者 有 1 人 , 占 总 人 数 16.67% 。 


WHO WRO 查看 IJ) 工具 IT 解决 方案 (了 CE ΜΜ; 


i 
(a) 出 “ PIE xt/MISSING TYPE=FREQ:” 命 令 产 生 的 圆 形 岁 


6.14 两 种 圆 形 图 
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国 LHO RAO Έξω IAW FADED 


TD ESE 
lan: πμ πα κοκ 
ΚΕΙ 
Chet 5| ο. 
Chet 5 enne E 
Print: SA - € s 
Chart: 5, gi A 
Paint: 54. - - 
Chen Ll 
PA: πλ xit o d 
Chart: s. » t3 
- -- 区 
3 S 
» s 
» P 7.8 » 
* Ε mii * 
ῃ : ] 
H B 
. : * 
" H P 
H : 
H τα 
n ν 
H * 
Η H 
η e 
H 5.5 H 
e GAL n 
m 31 Lj 
* zt 
- 
ΠΩ e 
ᾱ 
ο - 
- μι 
κα LADO 
€ 
me : ο 
M ο 
worm nr 
Iu 
DSH (GaN. ORS- 无 标 题 》 


(b) HH“ PIE x/MISSING SUMVAR-xt TYPE-FREQ TYPE-MEAN;" 命令 产生 的 圆 形 图 
图 6.14 ( 续 ) 


66 用 VEANS 和 过程 比较 两 个 均值 


MEANS 过 程 是 对 数字 型 变量 计算 各 组 ( 子 总 体 ) 的 均值 ,但 对 字符 型 变量 无 效 。 
661 应 用 实例 


例 12: 计算 男女 两 组 血糖 平均 含量 . 见 程序 6.12. 
程序 6. 12: 


DATA xt3; 

LAPEL location- ' 地 区 ' sex- "性 别 ' cy= ' 抽 烟 量 : 支 /日 ' 
me= "脉搏 ' dy- ' 低 压 ' xc- "if Bl t; 

INEUT sex location cy dy np xt; 

CARDS; 

11158566 8.5 

2 1 20 88 68 7.3 

1 2 30 90 70 8.6 

222590 70 7.8 

113595 759.2 

2 2 35 91 76 9.0 
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PROC MEANS; 
BY sex; 
VAR xt; 
OUTPUT OUT- STAL, 
运行 程序 6. 12 产生 图 6. 15 所 示 的 结果 。 
下 SAS - [输出 - 《无 标题 》] ΒΕ 
国 文件 E) SRO 查看 (W) TRAC) 解决 方案 (5) SOW Wie) =le] x] 


[c a [TI EE EEE 


L 
s [Es] |BE D ". Εν 
ΠΕΝ ati.. —— 记事 本 BARPO 


图 6.15 MEANS 过 程 默认 格式 的 输出 


从 图 6.15 看 ,男性 一 组 平均 血糖 8. 8, 最 高 :标准 偏差 0.4, 相 对 较 低 。 女 性 一 组 平均 
血糖 8. 0 ,稍微 低 一 些 ; 标 准 偏差 0. 9. 相 对 较 高 。 从 理论 上 看 ,均值 高 .标准 偏差 又 大 的 


一 组 才 是 真正 的 高 。 
一 般 地 说 ,用 MEANS 过 程 的 默认 格式 ,其 输出 足够 描述 数据 。 


662 NEANS 过 程 命 


1. MEANS 过 程 命令 的 格式 


PROC MEANS DATA= 已 建 的 数据 集 MAXDEC= 0 一 8 VARDEF= N| DF | WEIGHT | WDF 


N= ΜΙΝ = MAX- MEAN = STD = STDERR = SUM= VAR = τες = 
MMISS = RANGE- 
T- PR- SSMS C=  SKEWNESS KURTOSIS- ; 
VAR vl v2; 
OUTPUT OUT- fij ih Zt is EAN STAL; 
2. 格式 说 明 
MAXDEC- 0— 8 /* 小 数位 。 默 认为 小 数位 占 2 位 * / 
VARDEF-N /* 用 个 案 数 作为 除数 * / 
DE /* FH (自由 度 二 了 作为 除数 。 默 认 * / 


wEIHT ë /* 用 “权重 和 ”作为 除数 */ 
VDE /* 用 "权重 和 - 卫 作 为 除数 < / 


css- 
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N- /x* 显示 取 多 少 个 个 案 * / 

MIN- /x* 显示 最 小 值 / 

MAX- /* 显示 最 大 值 * / 

MEAN- /. 显示 均值 * / 

SID- /x* 显示 标准 偏差 * / 

SITERR- /* 显示 标准 误差 * / 

以 上 几 个 统计 量 为 默认 的 ,一般 够 用 。 

3. 举例 

程序 6.13: 计算 男女 两 组 血糖 平均 含量 ,并 存储 均值 变量 。 
DATA xt3; 


LABEL location- ' 地 区 ' sex- ' 性 别 ' cy= ' 抽 烟 量 : 支 /日 ' 
np- "脉搏 ' dy= ' 低 压 ' xt= "ifi bli"; 
INEUT sex location cy dy mp xt; 
CARDS; 
111585 66 8.5 
2 1 20 88 68 7.3 
1 2 30 90 70 8.6 
2 2 25 90 70 7.8 
113595759.2 
2 2 35 91 76 9.0 
F 
PROC SCRT;BY sex; 
PROC MEANS; 
BY sex; 
VAR xt dy; 
OUTPUT OUT- STA2 MEAN- ml m2 STD- 51 s2; 


运行 程序 6. 13 产生 图 6. 16 所 示 的 结果 。 


下 σας - [输出 - 《无 标题 》] BEE 
国 文件 (E) RKO SEV IAD FASRO 窗口 (Ww) EHH ETE 
[rv zj|msmu —emu:mus-op&soe ] 
E DE " E " E 

1 1 0 3 8.76667 930.0000 0.37859 5.00000 

2 ? L] 3 8.03333 83.6667 0.87368. 1.52753 


L- ΕἸΗ5Ε- 《无 标题 ) | 国 cz2 ca” pRocP | | 
morc EG. [© C:\Documents and Settings | 2 


6.16 由 “OUTPUT OUT—STA2 MEAN 一 ml m2 STD 一 s1 s2; "产生 的 结果 


分 析 : 


MEAN 一 ml 对 应 VAR xt. STD—s1 也 对 应 VAR xt: 分 别 用 ml 存储 原 变 量 χι 的 


均值 ,用 sl 存储 原 变量 κι 的 标准 偏差 。 


同 理 ,MEAN 一 m2 对 应 VAR dy. STD=s2 也 对 应 VAR dy, 分 别 存储 原 变量 dy 的 


均值 及 标准 偏差 。 
关于 均值 和 标准 偏差 的 分 析 与 图 6. 15 同 。 


已 知 用 某 种 抗 癌 药物 治疗 20 名 中 期 患者 一 个 月 , 测 得 疗效 呈 2 的 指数 关系 如 下 , 求 


平均 疗效 。 


疗效 2 4 8 16 


zs 描述 统计 
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解 


。 设 变量 L 为 实验 的 人 数 。 

。 计 算出 均值 后 ,必须 还 原 为 2* 。 
程序 内 容 见 程序 6. 14。 

程序 6. 14: 

DATA abl; 

INPUT Lx@@ ; 

Y= 1092 (x); 

CARDS; 

1244685168 323 64 3128 


SET abl; 
IX=2% * Y; /* S Z * / 
PROC PRINT DATA= ab2; 


运行 程序 6. 14 产生 图 6. 17 所 示 的 结果 。 


ΕΒ υήμε SMO SEW TAY Farso 窗口 QD 
IE a= 


E-A 


。 由 于 疗效 呈 2 的 指数 2* 关系 , 故 设 Y=log: (x). 


-isixi 


E] ux 
2 1.62735 18.3792 
sie 系统 


ue 
3.08346 


10:57 Thursday, Moveaber 21, 2002 8 


《无 标题 ) | 国 c14.sas” Proce...| 


图 6. 17 


EEC 


计算 出 均值 后 还 原 为 2* 
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从 图 6.17 看 ,平均 疗效 为 2* 一 242? 一 18. 3792 ,标准 偏差 为 21577959 一 3. 08946, 


67 用 PROC PAO ARREA 


PROC PLOT 过 程 可 产生 双 变 量 的 散 点 图 .从 中 可 以 看 到 双 变 量 的 相关 程度 (是 和 否 
线性 相关 ) 。 

例 13: 画 出 低压 与 血糖 的 散 点 图 , 见 程 序 6.15. 

程序 6. 15: 


DATA xt7; 
LABEL location- ' 地 区 ' sex- 性别 ' cy= ' 抽 烟 量 : 支 /日 ' 
np- "脉搏 ' dy= "低压 ' xc- ' 血 糖 '; 
INEUT sex location cy dy mp xt; 
CARDS; 
111585 66 8.5 
21 20 88 68 7.3 
1 2 30 90 70 8.6 
2 2 25 90 70 7.8 
1135 95 75 9.2 
22359176 9.0 
P 
PROC SCRT;BY sex; 
PROC PLOT; 
PLOT dy* xt/VAXIS- 85 TO 95 BY 10; 


运行 程序 6. 15 产生 图 6.18 所 示 的 结果 。 


T sas -[ 输 出 _《 无 标题) 1 ΕΞΩ 
Ε9 πι) AWD AEQ) IR) ΜΑΣ HOW ΜΗ) πια. 
«στ — a ΘΑ πα. E 0 

E LI: A = 1 cbs. 9 = σα... E 
um 


"mm axo 
Bas a Cx. Elem 措 述 搞 计 … | wb enc cime CETLE 


6.18 低压 与 血糖 的 散 点 图 
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从 图 6. 18 看 ,低压 与 血糖 的 散 点 图 没有 呈现 线性 关系 。 低 压 85 与 血糖 8. 5 的 交叉 
点 偏离 其 他 点 甚 远 。 
B 14: PLOT 命令 还 可 画 出 正弦 和 余弦 图 . 见 程序 6. 16. 
程序 6. 16 : 
DATA; 
DO X- 0 TO 360 BY 5; 
Yl= SIN (x * 3.14159/180) ; 
Y2- O08 (x * 3.14159/180) ; 


OUTEUT; 


下 5SA5 - [输出 - 《无 标题 


| 
E 
* gg Pot 
$61 4 “日 
τὰς -[ 町 出 -无 .… 辆 第 弹 描述 统计 , .| W 6bt -记事 丰 LLLIEM 


(4) 1ESZ EE 
图 6.19 正弦 和 余弦 图 
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$. 14 45 1k 5 * dq 


Y SAS-[MR Hi - (δα) ] ΕΕ 
DWO μπε Έξω ΤΕΙ Pero Haw ΠΞΧΗ) -ἰδ!Χ| 
[4 Ξ D#m saken PEDO 
E33: 10:57 Thursday, Novenber 21, 2002 102 ES 
EL 图 : ves. 图 例 : A = 1 ους, 8 2 obs... 
pr γε 
EH 
AAA ΑΛΑ. 
4M AM 
κ 
^ D 
^ A 
^ ^ 
η « 
^ n 
^ 4 
^ n 
LI ^ 
a 4 
^ a 
^ ^ 
ΠΠ ^ n 
^ ^ 
LJ LI 
^ « 
^ a 
À, A 
^ ^ 
^ n 
A ^ 
^ 4 
^ à 
^ LI 
^ κ 
AM AAA 
AMAA 可 
T LH jg on 
CETLEJ 


τας -[3Ν 1} E N e) Bew 记事 本 | 
[DEA 


图 6.19 (25) 
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对 于 标 称 ( 定 类 ) 数 据 、 次 序 ( 定 序 ) 数 据 , 以 及 从 非 正 态 分 布 的 总 体 数据 中 抽取 的 区 
间 ( 定 距 ) 和 比例 ( 定 比 ) 数 据 , 由 于 不 能 采用 参数 检验 ,所 以 只 能 通过 是 否 处 于 形状 分 布 、 
均匀 分 布 的 观察 来 进行 非 参 数 检验 。 这 时 是 对 原始 数据 做 秩 分 变换 , 即 对 原始 数据 从 大 


到 小 (或 从 小 到 大 ) 排 列 , 进 而 赋予 序号 成 为 秩 分 。 


681 什么 是 秩 分 
如 表 6. 1 所 示 , 是 人 体 中 葡萄 糖 含量 的 秩 分 (变量 Rglucose) 数 据 。 原 始 数 据 105 的 


秩 分 为 33. 5 ,原始 数据 95 的 秩 分 为 14.0 等 。 
表 6.1 葡萄 糖 含 量 的 秩 分 


OBS Glucose Rglucose 
1 105 33.5 
2 95 14.0 
3 93 10.5 
4 91 7.5 
5 96 17.0 


2 描述 统计 
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682 ”RAK 过 程 命令 
1. 命令 格式 
PROC RANK Dam- 已 建 的 数据 集 ; 

TIES-MEAN|HIGH|IOW; / 3 种 取 秩 法 ,默认 为 TIES-MERN * / 

DESCENDIN /* 从 大 到 小 排列 取 秩 ,默认 为 升序 取 秩 * / 

GFOUP- n /x* n 为 组 数 。 计 算 分 位 数 秩 分 。 秩 分 为 o 一 Cn-D。 
每 组 观察 值 可 以 相等 或 不 等 。 当 n=100 时 产生 百 分 位 数 , 当 n=4 时 产生 四 
分 位 数 * / 

FRACTION /* 要 求 计算 分 数 小 数 ) 秩 分 ,小 数 秩 分 = 秩 分 /有 效 项 数 n。 
当 指 定 TIES- HIGH 或 省 略 TIES 项 时 ,小数 秩 为 右 连 续 经 验 累 计 分 布 函数 x* / 

P| PERCENT /* 计算 百分数 秩 = ( 秩 分 /有 效 项 数 n) * 100% ,前 提 是 有 
TIES=HIGH 选 项 * / 

NORMAL BLOW TUKEY WW /* 先 计 算 秩 ,后 求 正 态 分 布 。 这 些 正 态 秩 分 接近 于 正 态 
分 布 所 期 望 的 顺序 统计 量 / 

SAVAGE /* 由 秩 分 计算 出 Savas 得 分 指数 得 分 ) / 

cor=- 数 据 集 ; /x 默认 为 OUT=_DATA 。 输 出 数据 集 里 含有 输入 数据 集 里 的 全 部 变量 ,加 上 由 
RANK 语 句 中 的 变量 。 如 无 VAR 语 句 , 则 输出 数据 集 里 含有 全 部 数字 型 的 变 
量 * / 

ΘΙ 15. 


PROC RANK DATA- xt TIES- HIGH GROUPS- 10 ΝΟΗΜΑΙ;- W OUT= OUL; 
VAR dy xt mp;  /* 指定 编 秩 的 变量 * / 
RANK RL R2 R3; /* 与 “VAR dy xt mp;” 中 的 3 个 变量 呼应 ,命名 秩 分 名 称 * / 
[BY SEX;] /* 按 指定 的 变量 (如 sex) 分 组 取 秩 ,但 数据 应 该 先 用 “BY sex;” 语 句 取 秩 * / 


2. 3 种 取 秩 法 参阅 表 6.2 


表 6.2 3 种 取 秩 法 


CALCIUM TIES— MEAN TIES— HIGH TIES— LOW 
10.1 8.0 10 6 
8.7 6.5 6 ri 
10.5 9.0 10 8 
10.6 10.0 10 10 


683 秩 分 计算 


1. 正 态 得 分 


RANK 具有 3 种 正 态 得 分 计算 法 : 
BLOW ; Zi— VCRi—3/8)/(n4-1/4) 
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$. Hi5 st 


TUKEY: Zi— Y(Ri—1/3)/(n4 1/3) 

VW : Zi— V(ORD/CG1) 
其 中 : 下 为 道 累积 正 态 概率 函数 。Ri 为 第 i 个 秩 。n 为 “VAR 语句 ”中 变量 的 有 效 个 案 
数目 。VW 为 Van Der Wacerden 的 缩写 ,其 得 分 用 于 非 参 数 定位 检验 。 


2. 分 位 秩 的 算法 为 FLOORCRANK * G/(n+1)) 


式 中 ,RANK 为 数据 的 秩 分 ,G 为 GROUP-— v 的 组 数 ,n 为 “VAR 语句 ”中 变量 的 有 
效 个 案 数 目 。 


3. 指数 得 分 (SAVAGE 得 分 ) 
对 秩 次 ( 秩 分 ) 进 行 指 数 变换 的 公式 如 下 : 


Yi= » /p —1 


J=n—Ritl 
式 中 ,Ri 为 第 i 个 秩 。 当 原始 数据 为 指数 分 布 时 .先进 行 指数 得 分 变换 ,再 进行 统计 
Arr. 


684 运用 举例 


当 数 据 变 换 为 秩 分 后 ,一 般 可 与 PLOT, NPARIWAY,MEANS 等 过 程 进 行 联合 
分 析 。 


1. 用 秩 分 检验 数据 的 正 态 性 


利用 RANK 过 程 先 计算 正 态 得 分 和 指数 得 分 .再 检验 这 些 得 分 是 否 服 从 正 态 分 布 
或 指数 分 布 , 即 把 正 态 得 分 作为 横 轴 ,原始 数据 作为 纵 轴 ,用 PLOT 过 程 画图 ,如 果 图 形 
的 图 点 呈现 一 直线 , 则 为 正 态 分 布 。 

例 16. 检验 血糖 数据 是 否 服从 正 态 分 布 . 见 程序 6.17. 

程序 6. 17 : 


DATA xt; 

LABEL location- ' 地 区 ' sex- ' 性 别 ' cy- ' 抽 烟 量 : 支 ' mp= ' 脉 搏 ' 
dy- ΗΕ" xt= "if Bl; 

INEUT id sex location cy dy mp xt; 

CARDS; 

111585 668.5 

2 1 20 88 68 7.3 

123090 70 8.6 

2 2 25 90 70 7.8 

11359575 9.2 

223591 76 9.0 


PROC RANK NCRMAI- VW OUT= QU2; 
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VAR np xt; 
RANKS rankmp rankxt; 
PROC PRINT DATA- cu2; 
TTE ' 用 ΝΟΕΜΑΤ;- WW 1d 8 ESI '; 


πι SAS - [输出 - 《无 标题 》 ] BEE 
国 文件 (E) MEEO SEY IAD FASS FOW MHH imi x| 
Jvm ——————mlmnw*mieu!x ΕΓ T IEXI: 

crm) Mru vat EA 


09:15 Monday. November 25, 200 


Obs location ses cy wp dy xt τοήπρ arkxt 
1 1 1 5 6 5 + 16001 
2 1 ἓ 20 δ s 0 - 1106757 
3 2 1 30 W w EX TE 
4 H 2 25 70 90 -0.00000 -0.56535 
5 1 1 35 76 95 1:06757 
5 2 2 35 76 9| 550 


ΠΗ 0.56535 
: | 
“4.1 HI E K 
SAS -[ 簿 出 -〈 无 … B 6,txt -记事 本 ymo 描述 抗 计 …,| 加 北京 大 学 - micros... LL 
(4) 计算 止 态 得 分 


T «Ας -[ 输 出 - (无 标题 》] 
ΤΕ ΑΒ da) 查看 fw) 工具 D 


Rank for Variable =t 


--.. LETT T S à i EXIT 
Επι €x... BoeetcioM [DESA Hitikit πι 入 北京 大 学 - Micros... | ΤτΕ 


(b) xt*rankxt[I 54053 ld] 
6.20 计算 正 态 得 分 及 散 点 图 


从 图 6. 20(a) 看 ,mop 数据 的 秩 分 为 rankmp. xt 数据 的 秩 分 为 rankxt, 分 别 已 生成 。 
再 从 图 6. 20(b) 看 .原始 数据 κι 与 秩 分 rankxt 的 散 点 图 基本 呈现 一 直线 ,说 明 血 糖 数 据 
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基本 上 趋 于 正 态 分 布 。 
2. 秩 和 检验 


C) 双 样 本 秩 和 检验 

RANK 先 将 原始 数据 变 为 秩 分 ,然后 用 NPARIWAY 过 程 中 的 WILCOXON 选项 
对 秩 分 进行 t 检验 ,进而 获得 双 样 本 秩 和 检验 。 

例 17: 单 因 素 双 样本 秩 和 检验 , 见 程序 6. 18。 

程序 6. 18: 承接 程序 6. 3 的 数据 。 


DATA xt; 
LABEL location- ' 地 区 ' sex- ' 性 别 ' cy= ' 抽 烟 量 : 支 ' mp= ' 脉 搏 ' 
dy- "低压 ' xt= "if B; 
INEUT sex location cy dy mp xt; 
CARDS; 
111585 668.5 
212088 68 7.3 
123090 70 8.6 
2 225 90 70 7.8 
113595 759.2 
22359176 9.0 
PROC RANK NORMAL- VW OUT= CU27 
VAR np xt; 
RANKS rankmp rankxt; 
PROC NPARIWAY WIICOXON; 
CLASS sex; 
VAR rankxt; /* 单 因 素 双 样本 秩 和 检验 * / 
运行 程序 6. 18 产生 图 6. 21 所 示 的 结果 。 
从 图 6. 21 看 , 双 侧 概率 (Two-Sided Pr 二 1Z|) 为 0.3827, 单 侧 概率 (One-Sided Pr 二 
Z) 为 0.1914, 都 不 显著 。 说 明 秩 和 趋 于 正 态 分 布 。 
双 样 本 的 秩 和 (Sum of Scores) 分 别 为 13.0 及 8.0. 不 相等 。 
(2) 多 样本 秩 和 检验 
多 样本 秩 和 检验 是 将 原始 数据 的 秩 分 ( 秩 次 ) 进 行 多 因素 (多 自 变 量 ) 多 水 平 的 方差 
分 析 , 即 Kruskal-Walis 检验 。 
检验 法 : 仍 用 NPARIWAY 过 程 中 的 WILCOXON 选项 对 秩 分 进行 t 检验 ,进而 获 


得 多 样本 秩 和 检验 。 
输出 结果 : 只 输出 卡 方 及 P 值 , 比 双 样 本 秩 和 检验 少 一 个 Z 值 。 
3. 等 级 相关 分 析 


斯 皮尔 曼 (Spearman) 等 级 相关 分 析 实 质 上 是 秩 相关 分 析 。 当 变量 分 布 是 次 序 的 ,或 
非 正 态 的 ,或 分 布 为 未 知 时 ,可 采用 这 种 检验 法 。 
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09:15 Monday, Novesber 25, 2002 
The NPARIWAY Procedure 


Wilcoxon Scores (Rank Sums) for Varieble rankxt 
Classified by Variable sex 


Expected 
Under HO 
.50 2.291288 4.333333 
10:50 2.291288 2.668667 
Wilcoxon Two-Sample Test 
Stat istic 
Normal Approximation 


Üne-Sided Pr > 
ἴα διά Pr > [δ 


t Approximat ion 
Üne-Sided Pr > Z 0. 
Two-Sided Pr > IZI 0.4227 
Z includes a continuity correction of 0.5. 
Kruskal-Wallis Test 
Chi-Square 1.1905 
Pr > Chi-Square 0.2752 


I ERE Nn 
AE 描述 统计 .| 加 北京 大 学 - Micros... ππθίμο! 


图 6.21 单 因素 双 样 本 秩 和 检验 


等 级 相关 分 析 的 过 程 命令 为 : 
PROC CORR SPEARMAN; 


程序 6. 19: 


DATA cl; 
LABEL location- ' 地 区 ' sex- ' 性 别 ' cy- "Ντ "πο "ΜΒ" 
dy- "低压 ' κε- "ifi Bi"; 

INPUT sex location cy dy mp xt; 

CARDS; 

111585 668.5 

21 20 88 68 7.3 

1293090 708.6 

2 2 25 90 70 7.8 

11 35 95 5 9.2 

2235 91 76 9.0 

PROC CORR SEEARMAN; /x 斯 皮尔 曼 (Speamman) 等 级 相关 分 析 / 
VAR cy xt; 

PARTIAL sex; 


运行 程序 6. 19 产生 图 6. 22 所 示 的 结果 。 


从 图 6. 22 看 ,抽烟 与 血糖 的 斯 皮尔 曼 等 级 相关 系数 为 0. 9299, 其 显著 性 水 平 为 


0.022( 小 于 a 值 0.05) 很 显著 。 说 明 抽烟 多 了 会 致使 血糖 很 快 增高 。 
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下 SAs - [输出 - 《无 标题 》] ΒΞ 
BXD RRO SEV IAD ΜΕΣΟ) SOW EIH ΙΕ] κ! 
[Lv zjjDsmen:--5»gggSsOS 
ELE x p E 
E 1 Partial E: sex 
RE: E 
简单 统计 量 
*- N E WERE PER 最 个 值 最 大 信 ”标签 
sex 5 1.50000 0.54772 1.50000 1.00000 2.00000 ΕΙ. 
ΕἼ EE A E MOM I. 
πὲ Li 9.40000 0.72388 8.55000 7.30000 9.20000 m 
reon REXER, N= 
当 Wi Partial Rhed I» Prob > Irl 
E . 
Eee omo nnm 
"E NEL. 
5! 
国 输出 -〈 无 标题 目 日 志 - 《无 标题 ) | 国 6.19.sas ρποςς... 
NOTE ΕΠ. [3 C:\Documents and SettingsiRai zi 


图 6.22 斯 皮尔 曼 (Spearman) 等 级 相关 分 析 


4. 利用 秩 分 计算 秩 和 比 


对 于 一 些 世界 性 的 健康 指标 (如 出 生 率 、 死 亡 率 、. 婴儿 死 亡 率 ,0 岁 、1 岁 、65 岁 的 期 望 
寿命 以 及 结婚 率 等 ), 可 先 排序 然后 对 秩 求 和 。 最 后 将 和 数 除 以 (指标 个 数 * 个 案 
数 ), 即 : 


RSR 一 (Σκγ/ο: *n) 


式 中 ,RSR 既是 秩 和 比 ,又 是 健康 指数 ,例如 :计算 健康 指数 , 见 程序 6. 20. 
程序 6. 20: 


DATA rsrl; 
ΤΝΡΟΤ country $ birthp deathp ideathp tdeathp marriedp age0 agel age65; 
LABEL country- ' 国 家 ' birthp- ' 出 生 率 ' deathp- ' 死 亡 率 ' 
ideathp- ' 婴 儿 死 亡 率 ' 
tdeathp- ' 总 死亡 率 ' marriedp= ' 结 婚 率 ' ageo- '0 岁 期 望 寿命 ' 
agel- "1 3 ΜΗ tH 141" age65- '65 岁 期 望 寿命 ; 


Russia 19.40 6.40 27.70 10.60 9.60 70.00 70.50 12.00 
China 21.04 7.65 50.08 6.65 17.20 $67.51 £69.28 13.54 
USA 15.70 6.10 10.50 8.70 10.10 74.80 74.60 16.80 
UK 13.30 5.30 9.40 11.80 6.90 73.00 72.70 12.90 
France 13.90 7.70 8.00 10.10 4.90 71.80 71.50 14.90 
Sweden 11.80 3.90 6.70 11.30 4.60 73.80 73.40 14.70 


PROC RANK DESCENDING OUT- CUTP1; /< 出 生 率 、 死 亡 率 等 指标 应 降 排 序 , 越 低 越 好 x* / 
VAR birthp deathp ideathp tdeathp; 
RANKS RI-R4; 

PROC RANK OUT= CUTP27 /* 结婚 率 和 期 望 率 等 指标 应 升 排序 , 越 高 越 好 * / 


zx 
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VAR marriedp age0 agel age65; 
RANKS R5-R8; 

DATA rsr2; /* 建立 第 2 个 输入 数据 集 “ 秩 和 比 ”* / 
MERGE CUTP1 OUTP2; /* 将 数据 集 rsrl 和 rsr2 连 接 在 一 起 * / 


rsr= SUM(OF RLR8)/(6x 8); /* 计算 秩 和 比 */ 
KEEP country RI-R8 rsr; /x* 输出 数据 集 里 所 保留 的 变量 * / 


下 SAs - [输出 - 《无 标题 》1] 
[EC REO SEV IAD FASRO SOW BHW 


ET; on BE- PLAS 


14:55 Monday, November 25, 2002 21 
deathp idestho tdesth marriedo agel agel sge65 RI R2 R3 R4 


pi 11.1 10.60 3.5 70.00 70.50 12.00 2 3 2 8 
Print H $0.08 6.65 17.2 67.51 69.28 13.54 | 2 1 6 
Print: 8:10 — 10:50 — 8:70 — 10.1 — 74.80 74.60 16.80 8 4 3 5 
H 9:40 — 11:00 9:9 79.00 72:20 12:90 5 5 4 1 

7.70 — 0.00 — 10.10 43. 7190 701.60 14.00 4 1 5 4 

6:70 1190 Ae 79:90 73.40 14.00 6 6 6 2 

sas 系统 14:55 Monday, November 25. 2002 22 


ideatho tdestho married age) arel εκδ RI R2 R3 RA RS RS R7 ΒΒ 


να ws ἃ D9025919258223723221] 
21.04 7.85 50.08 6.65 — 17:2 2188113 
8:10 10:60 — 8:70 101 74:80 74.60 16 41556668 
5.30 9:40 11,80 — 8:3 5413441 
7.70 8:00 10:00 4:3 15422335 
3:90 6:70 1130 — 4:8 88115 δ 4 
PET wember 25, 2002 39 

mM rer 

A» ob 0.79167 

8 2 0-72917 

4 d 0.5333. 

δ 4 0:58250 

1 8 0-43750 

2 8 0.39583 


6.23 ”健康 指数 


结果 分 析 : 
从 图 6. 23 看 ,我国 的 健康 指数 曾经 为 第 五 名 ,美国 第 一 。 


πὰ ο σι η: ὁ Ὁ ο 
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PROC FREQ 过 程 可 以 做 哪 两 种 频率 表 ? 


试 计算 sex 变量 的 一 维 频数 分 布 , 并 把 缺失 值 当 作 有 效 值 统计 。 


试 计 算 “ 定 类 - 定 类 ” 双 变 量 交叉 汇总 与 结合 测量 。 

试 计算 * 定 比 - 定 比 ? 双 变量 交叉 汇总 与 结合 测量 。 

试用 PROC CHART 过 程 中 的 水 平 直方 图 描述 血糖 数据 。 
什么 情况 下 要 采用 RANK 过 程 进 行 非 参数 检验 ? 

试 对 低压 变量 dy 进行 单 因素 双 样 本 秩 和 检验 。 


均值 比较 与 工 检验 


本 章 介绍 常用 的 两 个 样本 (两 个 子 总 体 ) 均 值 的 比较 和 工 检验 。 
TA 均值 比较 有 的 方法 


均值 比较 (如 表 7. 1 所 示 ) 是 教学 科研 中 常用 的 一 种 统计 分 析 法 , 它 有 以 下 几 种 比 
BE. 
表 7.1 两 个 均值 的 比较 
样 本 比 较 法 
DATA xt7:INPUT x @@; 
Y= 二 x 一 假定 值 ; 
PROC MEANS MEAN STD T PRT; 
VAR Y; 
PROC MEANS MEAN STD STDERR T PRT; 
VARAB 
PROC TTEST: 
两 组 (男女 ,或 对 照 组 与 实验 组 ) 的 均值 比较 CLASS GROUP; 
VAR x; 


样本 均值 与 总 体 均值 的 比较 


AB 两 个 样本 的 均值 比较 


非 参 数 检验 : 

两 组 (男女 ,或 对 照 组 与 实验 组 ) 样 本 呈现 
非 正 态 分 布 . 或 分 布 不 确定 .或 为 偏 态 分 布 时 ， 
采用 非 参数 检验 


PROC NPARIWAY WILCOXON; 
CLASS GROUP; 
VAR x: 


711 配对 样本 的 均值 比较 


配对 样本 的 均值 比较 分 为 以 下 两 种 : 

(1) 样本 均值 与 总 体 均值 之 间 的 比较 ,以 及 均值 差异 的 显著 性 检验 。 其 方法 是 : 先 
用 MEANS 过 程 计算 两 个 均值 之 差 , 再 用 MEANS 过 程 中 的 t 统 计量 进行 均值 差异 的 显 

(2) 同一 对 象 在 实验 前 后 的 结果 ( 即 均值 ) 比较: 或 配对 样本 的 均值 比较 。 检 验 过 程 
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同上 。 
712 两 个 独立 样本 的 均值 差 检验 


两 个 独立 样本 的 均值 差 检 验 分 为 以 下 两 种 : 

(1) 男女 两 组 (或 对 照 组 与 实验 组 ) 的 均值 比较 。 

(2) 甲乙 两 组 平均 健康 指标 (如 血压 .血糖 、 身高、 体重 ) 的 均值 比较 。 

两 个 独立 样本 (两 组 ) 的 均值 差 检 验 ,要求 两 组 数据 各 自 独 立 ` 且 来 自 服 从 正 态 分 布 
的 总 体 。 

检验 法 : 采用 TTEST 过 程 。 

CD. 先 检 验 两 个 独立 样本 (两 组 ) 的 方差 是 否 相 等 。 其 原 假 设 为 : 

ΗΟ: 两 个 独立 样本 (两 组 ) 的 方差 相等 。 

@ 再 检验 两 个 独立 样本 (两 组 ) 的 均值 是 否 相 等 。 

HO; 两 个 独立 样本 (两 组 ) 的 均值 相等 。 


72 MEANSZLSEZE FL tÉZtrt E 


MEANS 过 程 是 计算 两 个 样本 均值 的 差异 ,MEANS 过 程 中 的 t 统 计量 是 对 均值 差 
异 的 显著 性 检验 。 


1. MEANS 过 程 的 命令 格式 


PROC MEANS MEAN STD STDERR T PRT; 
VAR vl v2; 


2. 格式 说 明 


PROC MEANS 后 面 有 5 个 默认 的 统计 量 : MEAN (均值 )、STD( 均 值 的 标准 差 )、 
STDERR( 标 准 误差 ). 工 (均值 差异 的 显著 性 检验 的 统计 量 O, ΡΚΤΟΘΕΊΓΗΕ c 的 概率 ,此 
值 要 与 a ffi 0.05 进行 比较 ) 。 

VAR v1 v2; 进行 均值 比较 的 数字 型 变量 vl v2 等 。 


3. 举例 


例 1: 样本 均值 与 总 体 均值 之 间 的 比较 ,以 及 均值 差异 的 显著 性 检验 。 设 每 人 体内 
血糖 的 标准 含量 为 5。 现 对 5 名 受 视 者 空腹 抽取 5 次 血样 测 得 血糖 含量 如 下 : 


5.0 4.9 5.1 4.8 5.3 


试 检验 其 平均 血糖 与 标准 均值 5 有 无 显著 差异 。 命 令 语 句 见 程序 7.1。 
程序 7.1: 


DATA xt7; 
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INEUTv GG; 
Y-v-5; /* 血糖 含量 与 标准 值 5 的 差 值 * / 
CARDS; 
5.0 4.9 5.1 4.8 5.3 
PROC MEANS MEAN STD T PRT; /* 计算 最 主要 的 统计 量 * / 
VAR Y; 


运行 程序 7.1 产 生 图 7. 1 所 示 的 结果 。 


T SAS - [输出 - 《无 标题 》] ΒΕ 
CEZ 编辑 (E) 查看 (V) 工具 (TD) 解决 方案 (3) 窗口 (W) 帮助 (H) =la] x| 


[- 


0.0200000 0.1923538 0.28 0.8276 


ll »4 Jalol: 


as RE. «Ἔ.. Bew iky |DA me.. E τὴ 
图 7.1 平均 血糖 与 标准 值 的 差异 检验 


Ho: 两 个 均值 之 差 为 0。 

从 图 7.1 看 ,均值 差 为 0. 02, 标 准 偏差 为 0. 1923538。t ff 0. 23 小 ,t 的 概率 值 
0. 8276 大 于 a 值 0.05。 

所 以 没有 足够 的 理由 拒绝 H0, 说 明 平 均 血糖 与 标准 值 5 很 接近 。 

例 2: 配对 样本 t 检验 。 对 20 位 肿瘤 患者 ,其 中 的 10 个 人 采用 药物 十 化 疗 治疗 , 另 
10 个 人 采用 药物 十 放疗 治疗 。 两 周 后 测 得 体重 增加 (单位 : 公斤 ) 见 表 7.2。 试 做 两 种 疗 
效 差异 性 检验 。 


表 7.2 20 位 肿瘤 患者 体重 增加 (单位 : 公斤 ) 数 据 


配对 个 案 1 2 3 4 5 6 7 8 9 10 
药物 十 化 疗 0.50 | 0.75 | 0.80 | 0.91 | 0.69 | 0.48 | 0.33 | 0.66 | 0.51 | 0.59 
药物 十 放疗 0.60 | 0.65 | 0.78 | 0.82 | 0.56 | 0.23 | 0.40 | 0.51 | 0.47 | 0.48 


解法 : 见 程序 7.2. 
程序 7.2. 


DATA TZ; 
INEUT vl v2; 
D-vil- v2; /* 20 位 肿瘤 患者 体重 之 差 * / 
LABEL ν]-- ' 药 物 + 化 疗 ' v2- ' 药 物 + 放疗 '; 
CARDS; 
0.50 0.75 0.80 0.91 0.69 0.48 0.33 0.66 0.51 0.59 
0.60 0.65 0.78 0.82 0.56 0.23 0.40 0.51 0.47 0.48 
PROC MEANS MEAN STD T PRT; /* 计算 最 主要 的 统计 量 * / 
VAR D; 
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运行 程序 7.2 产生 图 7. 2 所 示 的 结果 。 


MES BE 


| 文件 (E) 编辑 (E) SEV 工具 (D 解决 方案 (5) SOW IZ 


3 743 


- mE ta . 
So Bew «ΕΦ [815546 描述 统计 .| 加 北京 大 学 -Wicros 
图 7.2 20 位 肿瘤 患者 体重 之 差 


结果 分 析 : 

H0; 两 个 均值 之 差 为 0。 

从 图 7.2 看 ,均值 差 为 0.15, 标 准 偏差 为 0.1414。t 值 1. 50 小 ,t 的 概率 值 0. 3743 
大 于 a 值 0.05。 

所 以 没有 足够 的 理由 拒绝 H0, 说 明 两 种 疗效 很 接近 。 

例 3: 自身 在 治疗 前 后 血小板 均值 差 的 检验 。 

对 10 位 血小板 偏 低 者 进行 药物 治疗 一 个 月 后 测 得 血小板 数据 见 表 7. 3。 问 该 药 是 
否 能 提高 血小板 的 水 平 。 


表 7.3 10 位 血小板 偏 低 者 药物 治疗 一 个 月 后 血小板 数据 


治疗 前 后 1 2 3 4 5 6 7 8 9 10 
治疗 前 8.5 9.1 8.0 7.6 6.9 2.2 8.0 8:3 9.1 8.2 
治疗 后 10. 3 9. 3 10. 1 8.9 8.2 9.1 8.5 10.1 9.2 


解法 : 见 程序 7. 3。 
程序 7.3: 


DATA xxb; 

INET vl v2 Q8 ; 

D-v2- vl; /* 10 位 被 试 者 血小板 数据 之 差 / 
CARDS; 

8.5 9.1 8.0 7.6 6.9 7.7 8.0 8.3 9.1 8.2 

10.3 9.3 10.1 8.9 8.2 9.1 8.5 9.0 10.1 9.2 


PROC MEANS MEAN STD T PRT; /* 计算 最 主要 的 统计 量 * / 
VAR D; 

RUN; 

运行 程序 7.3 产生 图 7.3 所 示 的 结果 。 

结果 分 析 : 


H0: 两 个 均值 之 差 为 0。 
从 图 7.3 看 .均值 差 为 0. 13 ,标准 偏差 为 0.8300602。 fH t {È 0. 50 小 ,t 的 概率 值 
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下 SAs - [输出 - 《无 标题 》] ΒΞ 
DXO RMO SEV IAD 解决 方案 (5) SOW MIW Aix] 


[4T ——————————j[Bx*miéu|:me-impmau soe 


PL ] Ιω] 
CX... Bett -记事 本 | DAE 描述 统计 ….| 司 北 京 大 学 - Micros .| LLLI ETE 1 


图 7.3 10 位 被 试 者 血小板 数据 之 差 


0. 6323 KF a ffi 0.05. 
所 以 没有 足够 的 理由 拒绝 Ho ,说 明治 疗 前 后 体重 差异 不 显著 。 


73 ΤΕΡΤΙΞΤΣ ΕΞ t3 


TTEST itf A ΤΝ d sr FEAR RUJSfE 2: Du ο" cR gm. ri A FE AR E Ay Th 
立 , 是 指 两 组 数据 各 自 独立 、 并 且 是 来 自 服从 正 态 分 布 的 总 体 中 的 两 个 样本 。 

例如 有 男女 两 个 样本 ,男性 与 女性 之 间 互 不 相关 ,此 外 ,男女 人 数 可 以 不 等 。 

例 4. 将 被 试 者 分 为 对 照 组 和 实验 组 两 组 ,使 用 同一 种 抗 癌 药物 ,一 个 月 后 测 得 肿块 
大 小 见 表 7.4 所 示 。 试 做 两 组 疗效 差异 性 的 检验 。 命 令 语句 见 程 序 7. Λα. 


表 7.4 对 照 组 和 实验 组 肿块 数据 


对 照 组 2 40 80 75 48 70 60 70 60 70 62 


解法 : 见 程序 7. 4a。 
程序 7. 44: 


DATA dos; 

JINEUT group x Q8 ; 

CARDS; 

1 48 1 70 1 60 1 50 1 65 1 68 1 75 1 88 1 64 1 58 
2 40 2 80 2 75 2 48 2 702 602 70 2 60 2 702 62 


程序 7. 4a 说 明 : 
程序 7. 4a 中 用 CLASS 语句 指定 group 为 分 组 变量 ,表示 两 组 被 试 者 .其 中 group 一 
1 为 实验 组 ,group 一 2 为 对 照 组 。 变 量 x 表示 肿瘤 的 变化 量 ,必须 是 数字 型 变量 。 
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运行 程序 7. 4a 产生 图 7.4 所 示 的 结果 。 


| 下 sas - [输出 - 《无 标题 》1] 


[Tis _ [输出 《无 标题 了 ου ο ο ἱᾱ--...58 
| 国 文件 (E) 编辑 (E) 查看 (W IAV 解决 方案 (5) 窗口 (w) 帮助 (中 EIE 


A Di EA CCS On C ERGO 


15:00 Saturday, November 23, 2002 18 


ΙΕ sim 


The TTEST Procedure 
Statistics 


lariable group N Bai] Mean aag ΚΗ Std Dev ri Std Err 
10 56.168 54.6 73.032 8.1075 11.787 21.518 3.7274 
; 10 — 54.787 63.5 72.263 — 8.4058 — 12.25 22.363 3.8737 
Diff (1-2) 710.18. 1.1 12.394 3.0829 12.021 17.176 — 5.3758 
T-Tests 
Variable Method Variances DF t Value Pr > itl 
Siete — Unt o vh vw 
Equality of Variances 
Variable Method Num DF Den DF F Value Pr >F 
Folded F 9 9 1.08 0.9105 
st 15 Jalos 
as- [输出 - (无 ..， 8 6.txt -记事 本 [2E 1:3 diee | &YAE SCA AE - Micros... LETI GEI 


图 7.4 对 照 组 和 实验 组 肿块 比较 


结果 分 析 : 

(1) 方差 相等 的 检验 

ΗΟ: 两 个 子 总 体 ( 两 个 样本 ) 的 方差 相等 。 
检验 : 


从 图 7.4 看 ,F 值 的 概率 “Pr 二 F? 为 0.9105, 此 值 大 于 a 值 0.05. 所 以 没有 足够 的 理 
由 拒绝 HO ,说 明 两 个 子 总 体 ( 两 个 样本 ) 的 方差 相等 。 

当 方差 相等 时 应 该 再 观察 图 7.4 中 的 Equal 一 行 的 + 值 及 其 显著 性 水 平 。 

(2) 均值 相等 的 检验 

ΗΟ: 两 个 子 总 体 ( 两 个 样本 ) 的 均值 相等 。 

检验 : 


从 图 7.4 中 的 Equal 一行 的 t 值 及 其 显著 性 水 平 0. 8402 看 ,大 于 a 值 0.05, 所 以 没 


有 足够 的 理由 拒绝 H0, 说 明 两 个 子 总 体 (两 个 样本 ) 的 均值 差异 不 显著 ( 注 : 不 宜 说 均值 
相等 ) 。 


程序 7. Λα 是 采用 常用 的 编程 法 。 下 面 改 用 DO…END 语句 编程 , 见 程 序 7. Ab. 
程序 7. 4b: 


DATA dbs27 

ΤΟ group- 1 TO 2; /* 读 取 外 围 2 组 / 
INEUT n; 
IOI-1TO n; /* 读 取 内 围 各 10 个 观察 值 * / 
INPUT x@@; 
OUTPUT; 
END; 

END; 
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DOR I; 


48 70 60 50 65 68 75 88 64 58 
10 
40 80 75 48 70 60 70 60 70 62 
PROC TIEST; 

CLASS group; 

VAR x; 
RUN; 


运行 程序 7. 4b, 也 可 产生 图 7. 4 所 示 的 结果 。 
74 非 参 数 检 验 


非 参 数 检验 也 是 检验 两 个 子 总 体 均 值 的 差异 。 但 是 , 非 参数 检验 是 针对 两 个 子 总 体 
的 分 布 很 难 确定 “ 正 态 分 布 ” 的 情形 ,而且 还 针对 已 知 两 个 子 总 体 的 分 布 趋 于 偏 态 分 布 的 
数据 。 

非 参 数 检验 采用 SAS 中 的 NPARIWAY 过 程 。 它 基于 经 验 分 布 函数 ,计算 出 几 个 
统计 量 来 检验 变量 的 分 布 在 跨 组 时 是 否 有 ”相同 的 位 置 参数 "”。 这 些 统计 量 如 下 : 

。 Wilcoxon 得 分 

。 中 位 数 得 分 

。 Savage 得 分 

。 VW(Van Der Wacerden) 得 分 


741 用 NPARIWAY 过 程 做 非 参 数 检 验 
NPARIWAY 过 程 专门 用 于 单 因 素 非 参数 检验 。 
1. 过 程 命令 格式 


PROC NPARIWAY WIICOKON; 
CIASS v; /* 指定 一 个 分 类 变量 * / 
VAR v2; /* 指定 数字 型 因 变量 * / 


2. 格式 说 明 


选项 中 只 有 一 个 WILCOXON 统计 量 , 是 对 数据 的 秩 分 或 WILCOXON 得 分 进行 
分 析 。 

对 于 单 因 素 二 水 平 ,可 进行 WILCOXON 秩 和 检验 (U 检验 )。 对 于 单 因素 三 水 平 及 
更 多 水 平 ,可 进行 Kruskal-Wallis 检验 (H 检验 )。 
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742 举例 


6ἱ5. 用 WILCOXON 秩 和 检验 对 实验 组 与 对 照 组 此 双 样 本 ( 即 二 水 平 ) 均 差 的 显著 
性 检验 , 见 程序 7.5. 
程序 7.5 


DATA dbs3; 

INFUT group x 8 ; 

CARDS; 

1 48 1 70 1 60 1 50 1 65 1 68 1 75 1 64 1 66 1 58 
2 60 2 80 2 75 2 48 2 70 2 60 2 702 602 702 72 


PROC NPARIWAY WIICOKCN; 
CLASS group; /* 指定 group 为 分 类 变量 / 
VAR x; /* 指定 数字 型 因 变量 xx / 
RUN; 
运行 程序 7.5 产生 图 7. 5 所 示 的 结果 。 


T. SAS - [输出 
DIO 编辑 (E) EEV IND VESEO TOW EHU Hax 


〈 无 标题 ) ] 


ll-F ..—————— HjDx»Hiéeu:m*er-ip&g&aus:oe 
The NPARIWAY Procedure. = 
结果 
5 Wilcoxon Scores (Rank Suns) for Variable x 
5] (29 pori Classified by Variable group 
Sun of Expected Std Dev Mean 
srop n 2E NN em 
1 10 90.0 105.0 13.118890 9.0 
? 10 120.0 105.0 13.118830 12.0 


Average scores were used for ties. 


Wilcoxon Two-Sample Test 


Statistic 90.0000 
Normal Approximation 
-1.1053 
Üne-Sided Pr « 0.1345 
ως Pr 5 II 0:2880 
t Approximat ion 
Üne-Sided Pr < 0.1414 
Το Pr > I1 0:2828 


Z includes a continuity correction of 0.5. 


Kruskal-Wallis Test 


Chi-Square 1.3073 

Li > Chi-Square. 0.2528 - 
gel, ο). ajos 2 
F SK „|D 6.txt- 记 事 本 北京 大 学 - Micros... ICETIEXX 


7.5 双 样 本 均 差 的 显著 性 检验 


结果 分 析 : 

HO: 实验 组 与 对 照 组 消 肿 效果 没有 差异 。 

从 图 7.5 看 , WILCOXON 统计 量 Ζ 为 一 1. 1053。t 检验 的 概率 为 0.2828 大 于 o 值 
0.05, 所 以 没有 足够 的 理由 拒绝 HO0, 表 明 实 验 组 与 对 照 组 消 肿 效果 没有 显著 差异 。 

例 6: 三 样本 ( 即 三 水 平 ) 均 差 的 显著 性 检验 , 见 程 序 Τ.6. 

程序 7.6. 实验 组 与 两 个 对 照 组 消 肿 效果 没有 差异 。 


152 4». t 1614 5 * d 


DATA dbs33; 

INEUT group x 88 ; /* group=1 为 对 照 组 ,其 余 为 实验 组 * / 
CARDS; 

1 48 1 70 1 60 1 50 1 65 1 68 1 75 1 64 1 66 1 58 

2 60 2 80 2 75 2 48 2 702 60 2 702 602 702 72 

3 55 3 76 3 67 3 61 3 66 364 3 77 3 82 3 80 3 79 

; 


PROC  NPARIWAY WILOOXON; 


CLASS group; /* 指定 group 为 分 类 变量 * / 
VAR x; /* 指定 数字 型 因 变量 κα, 


运行 程序 7.6 产生 图 7.6 所 示 的 结果 。 


下 SAS - [输出 -〈 无 标题 》] 


DXO 编辑 (E) 查看 (W 工具 (D 解决 方案 (5) IECIT =ls|x| 
JE 


The NPARIWAY Procedure 


Vi Icoxon Scores (Rank Sums) for Variable x 
Classif ied by Variable group 


gmot Expected Std Dey an 
group N Scores Under Under HO Score 
1 10 116.00 155.0 22.667005 11.600 
2 10 156.50 155.0 22.667005 15.650. 
3 10 132.50 155:0 22.667005 18:250 
Average scores vere used for ties. 
Kruskal-Wallis Test 
Chi-Sauare 3.8011 
oF 2 
Pr > Chi-Square 0.1495 - 
ΡΤ ΝΠ | Jalol 3 
元 .图 第 7 章 .doc- micros.. | 38 6.txt- 记事 本 知 北 京 大 学 - Micros... LL E Rm ALIE 


图 7.6 三 样本 均 差 的 显著 性 检验 


结果 分 析 : 

HO: 实验 组 与 对 照 组 消 肿 效果 没有 差异 。 

图 7. 5 是 双 样 本 均 差 的 显著 性 检验 ,图 7.6 是 三 样本 均 差 的 显著 性 检验 。 相 比 之 
下 ,两 个 图 形 的 结果 很 不 一 样 。 双 样本 均 差 的 显著 性 检验 看 图 7.5 中 的 Z 检 验 ,三 样本 
显著 性 检验 看 图 7. 6 中 Kruskal-Wallis 值 。 

从 图 7.6 看 . Kruskal-Wallis {5 3.801,. 有 (3 一 1 一 2) 个 自由 度 ,其 卡 方 检验 的 概率 
为 0.1495 KF a 值 0.05, 所 以 没有 足够 的 理由 拒绝 H0, 表 明 实 验 组 与 其 他 两 个 对 照 组 
消 肿 效果 没有 显著 差异 。 


5 m 7 


l. 简 述 两 个 均值 的 比较 方法 。 

2. 试用 MEANS 过 程 及 其 t 统 计量 对 变量 血糖 与 标准 均值 5 进行 两 个 均值 差异 的 
检验 。 

3. 配对 样本 t 检 验 。 对 20 位 肿瘤 患者 :其 中 的 10 个 人 采用 药物 十 化 疗 治疗 , 另 10 
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个 人 采用 药物 十 放疗 治疗 。 两 周 后 测 得 体重 增加 见 程序 A. 33 中 的 数据 处 理 ( 单 位 : 公 
HO. 。 试 对 程序 A. 33 中 的 数据 做 两 种 平均 疗效 的 差异 性 检验 。 
程序 A. 33: 


DATA TZ; 
INEUT vl v2; 
D- vl- v2; /* 20 位 肿瘤 患者 体重 之 差 * / 
LABEL vl= "药物 + 化 疗 ' v2= ' 药 物 + 放 疗 '; 
CARDS; 
0.90 0.75 0.80 0.81 0.69 0.78 0.53 0.66 0.51 0.59 
0.80 0.85 0.98 0.82 0.66 0.63 0.60 0.51 0.67 0.68 
PROC MEANS MEAN STD T PRT; /* 计算 最 主要 的 统计 量 * / 
VAR D; 
RUN; 


4. 将 被 试 者 分 为 对 照 组 和 实验 组 两 组 ,使 用 同一 种 抗 癌 药物 ,一 个 月 后 测 得 肿块 大 小 
见 程序 A. 34 中 的 数据 所 示 。 试 用 “TTEST 过 程 及 其 t+ 检验 ”做 两 组 疗效 差异 性 的 检验 。 
程序 A. 34: 


178190190150185188185188184188 
240280275248270260270260270262 
F 

PROC TIEST; 

CLASS group; 

VAR x; 

RUN; 


5. 用 WILCOXON 秩 和 检验 对 程序 A. 35 中 的 实验 组 与 对 照 组 此 双 样 本 ( 即 二 水 
平 ) 均 差 进 行 显著 性 检验 。 
程序 A. 35: 


DATA dos; 

INPUT group x Q8 ; 

CARDS; 

1 78 1 90 1 90 1 50 1 85 1 88 1 85 1 88 1 84 1 88 
2 40 2 80 2 75 2 48 2 70 2 60 2 70 2 © 2 70 2 62 


CLASS group; /* 指定 group 为 分 类 变量 / 
VAR x; /* 指定 数字 型 因 变 量 x / 


Ji 2$ ^y Wr 


方差 分 析 的 基本 原理 是 将 全 部 数据 的 总 均值 的 离 差 平方 和 分 解 为 若干 部 分 , 每 一 部 
分 表示 某 因素 的 主 效应 、 交 互 效应 所 产生 的 影响 。 然 后 将 各 部 分 (如 组 间 平 方 和 ,误差 平 
方 和 ) 的 均 方 与 误差 均 方 进行 比较 ,进而 确定 哪些 因素 或 哪些 交互 作用 比较 重要 和 最 
重要 。 

方差 分 析 的 作用 是 观察 实验 的 结果 究 竞 受到 哪些 因素 ( 自 变量 )、 哪 些 水 平 的 影响 。 
方差 分 析 的 公式 为 : 总 变异 性 一 组 内 变异 十 组 间 变 异 。 
常用 方差 分 析 法 有 下 列 4 种 : 
。 完全 随机 设计 数据 的 方差 分 析 ( 即 单 因 素 方差 分 析 ) 

随机 区 组 数据 的 方差 分 析 ( 即 二 因素 方差 分 析 ) 

拉丁 方 设计 数据 的 方差 分 析 ( 即 三 因素 方差 分 析 ) 


。RxC 析 因 设 计数 据 方差 分 析 ( 有 交互 作用 的 方差 分 析 ) 
方差 分 析 的 过 程 命令 : 


(D PROC ANOVA; 


用 于 每 个 因素 水 平 ( 每 组 ) 的 个 案 数目 相等 的 情形 , 即 均衡 数据 的 方差 分 析 。 如 果 只 


考虑 组 内 变异 和 组 间 变 异 (One-Way 单 向 方差 分 析 ) 时 .ANOVA 也 能 处 理 非 均衡 数据 。 
(2) PROC GLM; 


用 于 每 个 因素 水 平 ( 每 组 ) 的 个 案 数目 不 相等 的 情形 , 即 非 均衡 数据 的 方差 分 析 。 


81 JH ANOVA Tx 257 5&v SE, E BI] 7 5: 5} ππ 


均衡 数据 指 因素 每 个 水 平 ( 如 男女 ) 的 个 案 数 目 相等 。 
811 ANOVAi ERG 
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[MEANS v3 选项 ;] 
[ALPA- P] / 默认 为 显著 性 水 平 P-0.05* / 


2. 选项 说 明 


[MEANS νᾶ 选项 ;] 和 [ALPA 二 Pj 语句 是 任 选项 。[MEANS v3 选项 ;] 用 于 产生 各 
个 效应 项 的 因 变 量 的 均值 。 若 指定 了 此 选项 , 则 检验 主 效应 间 的 均值 。 

[MEANS v3 选项 ;] 中 的 选项 如 下 ( 任 选 1 一 2 项 ) : 

BON, DUNCAN, LSD, REGWF, REGWQ, SNK (Q 检验 。 常 用 )、SCHEFFE、 
SIDAK、SMM(GT2)、TUKEY、WALLER、DUNNETT( 常 用 )。 


812 单 因素 方差 分 析 


单 因素 方 差分 析 也 称 为 完全 随机 设计 数据 的 方差 分 析 。 
例如 某 研究 所 对 3 种 装修 涂料 (a、b、c) 进 行 甲醛 含量 检测 ,每 种 涂料 各 做 5 次 检测 ， 
所 得 的 数据 见 表 8. 1。 试 检验 各 种 涂料 甲醛 平均 含量 有 无 显著 差异 。 


表 8.1 各 种 涂料 甲醛 含量 


涂料 a 涂料 b 涂料 c 涂料 a 涂料 b 涂料 
3.5 3.8 4.0 8.0 3.1 3.3 
3.4 3.7 8.9 8.2 8.6 8.8 
8. 9 3.4 3.6 


根据 题 意 编辑 出 程序 8.1. 


程序 8. 1: 

DATA fl; 

NAT t1x 60; /* 定义 涂料 变量 也 和 甲醛 含量 变量 xx / 
LABEL tl- "jj Eb ' x- ' 甲 醋 含 量 '; 

CARDS; 


1 3.5 2 3.8 3 4.0 1 3.4 2 3.7 3 3.9 
1 3.9 2 3.4 3 3.6 1 3.0 2 3.1 3 3.3 
1 3.2 2 3.6 3 3.8 


P 


PROC FORMAT; 
VALUE tlF 1-- ' 涂 料 a' 2- ' 涂 料 b' 3- ' 涂 料 c; 
FORMAT tl t1F.; /* 将 编码 值 赋 予 原 变量 世 , 即 确认 κ / 
PROC ANOVA; 

CIASS tl; /* 定义 蕊 为 分 类 变量 */ 

MODEL x- tl; /* x 指定 x 为 数字 型 因 变量 * / 
运行 程序 8.1 产生 图 8. 1 所 示 的 结果 。 
结果 分 析 : 


HO: 各 种 涂料 甲醛 平均 含量 没有 显著 差异 。 


6δι κας $ d 
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ΕΕΕΟΠΚΕΞΟ ΠΠ -= >) 
Ε8 文件 (E) SRO EEV IAD 解决 方案 (5) 窗口 (W) 天 助 (中 =la x| 
Ce aS TEE 
The ANOVA Procedure 
Dependent Varisble: x PSH 

Source DF Portal Mean Square F Value Pr >F 

Model 2 0.688000  0.34400000 4.11 — 0.0308 

Error 12 0.87600000 0.07300000 

Corrected Total 14 1.56400000 

R-Squere Coeff Var Root MSE x Mean 
0.439898 7.763940 0.270185 3.480000 

Source DF Anova SS Mean Square F Value Pr» F 

tl 2 0.68800000 0.34400000 4.71 0.0309 τ 
Matma 1: ασ] » 
3 事 本 δβ σας - [输出 - (35... 知 北 京 大 学 - Micros... | 贺 第 8 章 方差 分 析 .… PLPA 

图 8.1 各 种 涂料 甲醛 平均 含量 的 显著 差异 检验 
检验 : 
从 图 8.1 看 ,模型 的 显著 性 水 平 0. 0309 二 a 值 0.05, 显 著 。 因 此 可 以 继续 观察 各 个 
因素 的 差异 。 


从 图 8.1 的 因素 tl 一 行 看 .显著 性 水 平 0. 0309— 2a ffi 0.05, 显 著 。 所 以 有 足够 的 理 
由 拒绝 H0. 说 明 3 组 涂料 甲醛 平均 含量 有 显著 差异 。 
再 看 图 8. 1 的 R-Square( 单 向 方差 分 析 ) 值 为 0. 439898 ,说 明 总 体 方差 只 有 44% 是 
来 自 组 间 变 异 .不 太 理想 。 


813 双 因 素 方差 分 析 


双 因 素 方差 分 析 也 称 为 随机 区 组 数据 的 方差 分 析 。 
例如 对 血小板 偏 低 者 用 4 种 不 同 的 药物 治疗 后 血小板 的 数据 见 表 8. 2。 试 检验 4 种 


药物 平均 疗效 有 无 显著 差异 。 
表 8.2 用 4 种 不 同 的 药物 治疗 血小板 偏 低 者 的 数据 
区 间 ( 受 试 者 ) 处 理 组 (4 种 疗效 ) 
1 2 3 4 

1 9.1 9.2 9.6 10.1 
2 8.5 9.0 9.2 9.5 
3 8.0 8.6 9.0 9.2 
4 8.2 8.8 8.9 10.5 
5 8.5 9.0 9.1 9.5 
6 9.0 9.2 9.4 9.6 
7 9.5 9.8 10.1 10.5 
8 10.1 10.3 10.5 10.8 


根据 题 意 编辑 出 程序 8.2. 
程序 8. 2 : 
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9.1 9.2 9.6 10.1 
8.5 9.0 9.2 9.5 
8.0 8.6 9.0 9.2 
8.2 8.8 8.9 10.5 
8.5 9.0 9.1 9.5 
9.0 9.2 9.4 9.6 
9.5 9.8 10.1 10.5 
10.1 10.3 10.5 10.8 


MEAN g/SNK; /* 增加 SNK 两 两 比较 的 功能 * / 
和 CE 


T sis BEE 
CEE ΠΤ TAD FOAD GAW) M »lsixj 
JE — IEEE I ERE τπτ TEC EZ | 
Wiz Tec, verber 26. QUI ἘΕ E 
pss The ANDVA Procedure 
5 [8 anov Class Level at ior 
Wes ^ Ad 
: 
- a 
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SaS 系统 08:28 Tussdey, Wvesber 28, 1031 41 
— 
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οι dd 7 enm 
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目 日 志 - 


《元 标题 》 


国 32::: proca | 国 输出 - «ΠΑ. ATH -无 标题 5 


Er 
(a) 4 种 药物 站 均 疗效 有 元 显著 差异 的 检验 1 
8.2 疗效 显著 差异 检验 


μη 
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δι. κά 


T SAS - [输出 -〈 无 标题 )》 1 
EWRO 编辑 (E) mn IAD FAFO HOW WEAH) Sls| x| 
IE 可 Jorasa ZLEI TJERCE 
X ERE November 26, 2002 41 


The ANOVA Procecure 
Student -Newnan- #euls Test for Y 


MOTE: This test controls r the complete null 
人 本 IN her. 


0.05 
Hirn Deerees of Fresdcn 
Error Mean 0.524583 


Munter of Means ε 3 4 
Critical Raree 2.5151097 3.3024597 3.6137549 


Msens with the zane lstter ars not sisnificantly different. 


SNC Grouping Mein N Li 
à saso 1 4 
i fO» 2 1 
^ 9.7500 3 
E n 8.760 2 | 加 | 回 | :> 
t- 记事 本 ἆβ σας [输出 -无 ... 各 北京 大 学 - Micros.. — TEN. CETLE] 
(b) 4 PIZI FEJT AA TE E EA 2 
图 8.2 (8D 
结果 分 析 : 
HO: 治疗 后 4 组 血小板 平均 含量 没有 显著 差异 。 
检验 : 


从 图 8. 2(a) 看 ,模型 的 显著 性 水 平 0. 6728>a fH 0. 05 ,非常 不 显著 。 模 型 不 佳 。 

从 图 8. 2(a) 的 因素 i 一 行 看 ,显著 性 水 平 0.2364 二 v 值 0.05, 不 显著 。 所 以 没有 足 
够 的 理由 拒绝 HO. DEB] 4 组 血小板 平均 含量 没有 显著 差异 。 

同 理 ,8 位 受 试 者 血小板 平均 含量 没有 显著 差异 。 

再 看 图 8. 1 的 R-Square( 单 向 方差 分 析 ) 值 为 0. 439898 ,说 明 总 体 方差 只 有 约 44% 
是 来 自 组 间 变 异 , 不 理想 。 

图 8.2(b) 显 示 组 与 组 之 间 疗 效 的 检验 ,由 于 4 组 的 SNK 检验 结果 都 显示 A 字母 ， 
表明 4 组 的 疗效 没有 差异 。 

结论 : 应 该 更 换 数 据 或 模型 。 


814 三 因素 方差 分 析 


三 因素 方差 分 析 也 称 为 拉丁 方 设计 数据 的 方差 分 析 。 对 于 三 因素 方差 分 析 , 假 
定 各 因素 间 的 交互 作用 可 忽略 不 计 或 不 存在 交互 作用 :而 且 各 因素 的 水 平 都 有 相 
同 。 见 表 8. 3 的 数据 ,有 4 位 患者 分 别 服 用 4 种 药物 ,4 个 月 内 测 得 体内 总 胆 红 素 
(单位 : p mol/L) ,要 求 检 验 4 组 药物 作用 于 每 位 患者 后 体内 平均 总 胆 红 素 有 无 显著 
差异 。 


159 


38.3 4 组 药物 作用 于 每 位 患者 后 体内 平均 总 胆 红 素 ( 单 位 : p mol/L) 


4 位 受 试 者 
试验 月 份 
甲 乙 丙 Y 
1 Al1.5 B11. 8 €12.3 D12. 5 
2 B11.8 C12.1 D12. 5 ΑΙ2.8 
8 C12.0 D12. 5 A12.8 B13.0 
4 Ὀι 5 A12.8 B13.1 C14.1 


解法 : 见 程序 8. 8. 
程序 8.3: 用 DUNNETT 检验 。 


DATA £3; 
ΡΟ 1-1 ΤΟ 4; /* 工 为 试验 的 月 份 * / 
ΡΟΟΞ1 1ο 4; /* 可 为 4 位 受 试 者 * / 


INEUTk$ x08; /*K 为 4 种 药物 ,zx 为 总 胆 红 素 * / 


A 11.5 B 11.8 C 12.3 D 12.5 B 11.8 C 12.1 D 12.5 A 12.8 
C 12.0 D 12.5 A 12.8 B 13.0 D 12.5 A 12.8 B 13.1 C 14.1 


PROC ANOVA; 
CIASSijk; /* ijkOM AH RE / 


/* x 为 总 胆 红 素 单位 : p mol/L) κ / 
/* 增加 DONNETT 比较 功能 ,('1') 表 示 于 1 为 对 照 组 * / 


运行 程序 8. 3 产生 图 8. 3 所 示 的 结果 。 


MEANS j/DUNNETT ('1'); 


ΕΠ πο ΜΕ) 5 


IND ΜΑΞ 


-zimixi 


΄ - zose sat ean oval oe 
xj EE I 74:18 Tuesday. November 26. 2002 4 - 
Ex Ya IH πείς 


Iv Cinca Lavel Informat lon 
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1 ` 
à 4 
ν " 


valves 

834 
12:33 
aBco 


[Dapendari Variable: x 


Tambar of -aervetione 
ER 
The ANDA Procedure 


ΠΠ 


Source or Er 
m ο ezari n 
Error em 
torrezted Tetal 50 sams 
RSoumre Coeff Yar RESUME 
.65288 araa ΔΑ 
Sures or : ΠΝ 
1 3 ΔΕΗ m 
1 i Swim puri 
i Εν η DE] 
TERM |] 1 
TAB. (5... 各 北京 大 学 - Mieros .| MA sAr. Berw 记事 去 | 38 β8 [5 “τ 


(a) 模型 检验 
8.3. 体内 平均 总 胆 红 素 差 异性 检验 
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θδι κας $ d 


τ ολο - [输出 ”< 无 标题 》] BE 
ES de «πι TAD MGOTEG πον ΠΠ ΕΠΕ 


pf 


m LERS 
E E. TAE Micros | MWE AESH] B 67.txt- 记事 本 m aspis 
(b) 组 与 组 的 均值 比较 
图 8.3 (£D 
RARI: 
HO: 体内 平均 总 胆 红 素 没 有 显著 差异 (模型 不 佳 ) 。 


从 图 8. 3(a) 看 .模型 的 显著 性 水 平 0. 0010 一 xc 值 0. 05 ,非常 显著 。 说 明 体 内 平均 总 
胆 红 素 有 显著 差异 。 

从 图 8.3(a) 的 因素 i 和 j 行 看 ,显著 性 水 平 都 小 于 a 值 0.05, 显 著 。 所 以 试验 的 月 份 
不 同 , 体内 平均 总 胆 红 素 就 有 显著 差异 。 不 同 的 受 试 者 体内 平均 总 胆 红 素 也 有 显著 差 
异 。 但 是 从 图 8. 3(a) 的 因素 k 行 看 ,4 种 药物 的 疗效 没有 显著 差异 。 

再 看 图 8. ὃ (α) 的 R-Square( 单 向 方差 分 析 ) 值 为 0.965286, 说 明 总 体 方 差 中 有 
96.5%% 是 来 自 组 间 变 异 ,很 理想 。 

图 8.3(Cb) 显 示 受 试 者 第 2 组 与 对 照 组 (第 1 组 ) 之 间 的 平均 总 胆 红 素 没 有 显著 差 
异 。 而 受 试 者 第 4 组 与 对 照 组 (第 1 组 ) 之 间 的 平均 总 胆 红 素 有 显著 差异 (有 * * * 记 

受 试 者 第 3 组 与 对 照 组 (第 1 组 ) 之 间 的 平均 总 胆 红 素 也 有 显著 差异 (有 * κ * 记 
号 ) 。 


815 Rx C 交 互 因素 的 方差 分 析 


Rx*C 交互 因素 的 方差 分 析 又 称 为 Rx*C 析 因 设计 数据 方差 分 析 , 它 是 有 交互 作用 
的 方差 分 析 。 

例如 某 医院 对 8 例 缺 钙 患 者 .分 为 4 组 ,进行 不 同 药物 治疗 ,两 个 月 后 检测 血 中 含 钙 
fit He. p 克 /100ml) 如 表 8.4 所 示 。 

解法 : 根据 题 意 编辑 出 程序 8. 4a。 

程序 8. 4a: 
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表 8.4 4 组 缺 钙 患 者 血 中 含 钙 量 ( 单 位 : gk 克 /100mD) 
甲 药 (v1) 


乙 药 (v2) 不 用 54.6 55.8 60.68 


62.76 


用 48.8 46.76 64. 48 


DATA f4; 
ΤΝΡΟΤ id vl v2 ca; /.νι 25 νο 28  / 
CARDS; 
01 0 0 54.60 
02 0 0 55.80 
03 1 0 60.68 
0410 62.76 
05 0 1 48.80 
06 0 1 46.76 
07 1 1 64.48 
08 11 66.78 
; 
PROC ANOVA; 
CLASS vl v2; 
MODEL ca- vl v2 vl * v2; 
MEANS vl v2 vl* v2; /x* 进一步 比较 各 因素 中 补 钙 的 均值 差异 * / 


运行 程序 8. 4a 产生 图 8. 4 所 示 的 结果 。 


Y $A5 - [输出 - 《无 标题 ) ] 
DARO ARO EEV IAD MAIMI EOW PH 


o|m wa toe 
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ΠΠ 
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U.970704 —— 1.995200 57.50250 
oF Anova SS Meon Saare F Value Pr>F 
1 296.9434509 
1 5: 1820560 
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MELEE ELE DL 
(2) 模型 检验 


8.4 4 组 缺 钙 患者 血 中 含 钙 量 差异 性 检验 


66.78 
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δικα: 4 d 


[T shs -[ 输 出 - “无 标题 ) 1 
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ER The ANOVA Procedure 
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1 4 66.7050000 10.8818473 
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ΐ E " i Sa ies 
0 » 2 55.2000000 2.34052614 
[] l 2 47.7800000 1. 4243768 
i } io dan ΓΒΠῸΝ 
1 1 T 65.6300000 1.52834560 
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ΓΒ 


bow 
[55- Di. CX. eld eros. | ΒΘ] ΜΕ 方差 分 析 | 8 ντι. 记事 未 
(b) 均值 比较 
图 8.4 (£D 


结果 分 析 : 

HO: 4 组 缺 钙 患 者 血 中 平均 含 钙 量 没有 差异 (模型 不 佳 ) 。 

检验 : 

从 图 8. 4(a) 看 ,模型 的 显著 性 水 平 0. 0008 —a ffi 0. 05 ,非常 显著 。 
体内 平均 含 钙 量 有 显著 差异 。 


从 图 8. 4(a) 的 因素 v1 行 看 .显著 性 水 平 0.0002 小 于 a 值 0.05, 显 著 。 所 以 甲 药 用 


与 不 用 ,对 患者 平均 含 钙 量 有 显著 差异 。 


从 图 8. 4(Ca) 的 因素 v1 * v2 行 看 ,显著 性 水 平 0. 0044 小 于 a 值 0.05, 显 著 。 所 以 甲 


药 与 乙 药 有 显著 的 交互 作用 .对 患者 平均 含 钙 量 有 显著 影响 。 


但 是 从 图 8. 4(a) 的 因素 v2 行 看 ,显著 性 水 平 0. 1468 大 于 a 值 0. 05 


以 乙 药 用 与 不 用 ,对 患者 平均 含 钙 量 没有 显著 差异 。 
程序 8. 4b: 将 程序 8. 4a 改 为 用 DO…END 语句 输入 数据 。 


DATA f4b; 
DIO v2-0 TO 1; /* 村 为 甲 药 ,v2 为 乙 药 * / 
DO v1- 0 T 1; 
DO I-1 10 2; 
INPUT caQ Q0; 
OUTPUT; 
END; 
END; 
END; 
CARDS; 
54.60 55.80 60.68 62.76 48.80 46.76 64.48 66.78 


PROC ANOVA; 


说 明治 疗 后 患者 


,很 不 显著 。 所 
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CLASS vl v2; 
MODEL ca- v1 v2 vl* v2; 


MEANS vl v2 vl* v2; /* 进一步 比较 各 因素 中 补 钙 的 均值 差异 * / 


运行 程序 8. 4b 也 产生 图 8.4 所 示 的 结果 。 
比较 程序 8. 4a 和 程序 8. 4b 所 产生 的 输出 ,其 结果 一 模 一 样 。 请 读者 亲自 上 机 
体会 。 


816 多 个 实验 组 与 对 照 组 的 均值 比较 


已 知 某 个 因素 有 3 个 水 平 ,这 时 可 有 3 一 1、2 一 1、3 一 2 一共 3 对 均值 的 比较 。 如 果 这 
时 将 第 1 组 作为 对 照 组 , 则 有 “3 一 1” 和 “2 一 1” 一 共 两 对 均值 的 比较 ,这 就 是 多 个 实验 组 
与 对 照 组 的 均值 比较 。 

解法 : 已 知 实验 组 与 对 照 组 的 数据 如 表 8.5 所 示 , 采 用 DUNNETT 检验 法 , 见 程 序 8. 5。 

程序 8. 5: 


DATA f5; 
INPUT group weight 8468; 
CARDS; 
1 0.50 1 0.75 1 0.80 1 0.91 1 0.69 1 0.48 1 0.33 1 0.66 1 0.51 1 0.59 
2 0.60 2 0.68 2 0.78 2 0.82 2 0.56 2 0.23 2 0.40 2 0.51 2 0.47 2 0.48 
3 0.80 3 0.75 3 0.80 3 0.85 3 0.68 3 0.50 3 0.35 3 0.62 3 0.50 3 0.55 
+ 
PROC ANOVA; 

CLASS group; 

MODEL weight = group; 
MEANS group/DUNNETT ('3') ; /* 第 3 组 为 对 照 组 < / 


表 8.5 实验 组 与 对 照 组 平均 体重 增加 的 数据 


治疗 方法 1 2 3 4 5 6 7 8 9 10 
V1: 药 物 十 化 疗 0.50 | 0.75 | 0.80 | 0.91 | 0.69 | 0.48 | 0.33 | 0.66 | 0.51 | 0.59 
V2: 药 物 十 放疗 0.60 | 0.68 | 0.78 | 0.82 | 0.56 | 0.23 | 0.40 | 0.51 | 0.47 | 0.48 


V3: 药物 十 放 化 疗 | 0.80 | 0.75 | 0.80 | 0.85 | 0.68 | 0.50 | 0.35 | 0.62 | 0.50 | 0.55 


运行 程序 8. 5 也 可 产生 图 8.5 所 示 的 结果 。 

结果 分 析 : 

HO: 实验 组 与 对 照 组 平均 体重 平均 增加 没有 差异 (模型 不 佳 ) 。 

从 图 8. 5(Ca) 看 ,模型 的 显著 性 水 平 0. 497527 值 0. 05 .非常 不 显著 。 说 明 实 验 组 与 
各 对 照 组 平均 体重 增加 没有 差异 。 

从 图 8. 5(a) 的 group 因素 看 ,显著 性 水 平 0. 4975>a 值 0. 05 ,非常 不 显著 。 所 以 各 
对 照 组 之 间 平 均 体重 增加 没有 差异 。 

从 图 8.5(b) 的 组 与 组 均值 差异 性 检验 看 . 行 尾 均 无 “<* * *”, 表 明 平 均 体重 增加 没 
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8.5 实验 组 与 对 照 组 平均 体重 增加 的 差异 性 检验 


有 差异 。 
817 用 SK 的 Q 检 验 法 比较 组 间 均 值 


SNK 的 Q 检验 法 可 用 于 单 因 素 3 水 平 ( 或 3 水 平 以 上 ) 的 组 间 均 值 比较 。 对 程序 8.1 
中 的 3 种 涂料 数据 ( 见 表 8.1) .用 SNK 的 ο 检验 法 检验 各 组 平均 甲醛 含量 的 差异 性 。 
程序 8. 6: 对 程序 8. 1 用 SNK 的 Q 检验 法 检验 各 组 平均 甲醛 含量 的 差异 性 。 


DATA fl; 

INEUTtlx 00; /* 定义 涂料 变量 己 和 甲醛 含量 变量 κα 
IABEL t= ' 涂 料 ' x- HH BE x Hi; 

CARDS; 


13.523.834.01 3.42 3.7 3 3.9 


165 


12.892 3.43 3.61 3.02 3.1 3 3.3 
13:22:36 33,8 


VALUE tlF ]= ' 涂 料 a' 2- ' 涂 料 p' 3- ' 涂 料 c; 
FORMAT tl tlF.; /* 将 编码 值 赋 子 原 变量 世 , 即 确认 * / 


PROC ANOVA; 
CIASS tl; /* 定义 也 为 分 类 变量 x*/ 
MODEL x=t1; /* 指定 x 为 数字 型 因 变量 x* / 

MEANS tl/SNK; /* Hi sity Q 检 验 法 检验 * / 


运行 程序 8.6 产生 图 8. 6 所 示 的 结果 。 
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8.6 用 SNK 的 Q 检 验 法 检验 各 组 平均 甲醛 含量 的 差异 性 
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结果 分 析 : 

HO: 3 组 涂料 平均 甲醛 含量 没有 显著 差异 。 

检验 : 

从 图 8. 6(a) 看 ,模型 的 显著 性 水 平 0.0309 二 a 值 0. 05 ,非常 显著 。 模 型 好 。 

从 图 8.6(a) 的 因素 tl 一 行 看 ,显著 性 水 平 0.0309 一 xc { 0. 05 ,非常 显著 。 所 以 有 足 
够 的 理由 拒绝 H0O ,说 明 3 组 涂料 平均 甲醛 含量 有 显著 差异 。 

从 图 8. 6(b) 进 一 步 看 到 ,第 2 组 涂料 (TL) 和 第 3 组 涂料 平均 甲醛 含量 有 显著 差异 
(用 字母 A 和 也 表示 ), 第 1 组 涂料 CTL) 和 第 2 组 涂料 平均 甲醛 含量 有 显著 差异 (用 字母 
A 和 B 表 示 ), 第 1 组 涂料 (TL) 和 第 3 组 涂料 平均 甲醛 含量 有 显著 差异 (用 字母 A 和 B 
表示 )。 


82 用 GMZtfraEZSE: X 1i Ze 2E TT 


非 均衡 数据 指 因素 的 各 个 水 平 的 个 案 数 目 不 等 ,例如 性 别 中 男女 人 数 可 以 不 等 。 
GLM Æ (General Linear Model) 的 缩写 。 


821 QM 过 程 命 


1. GLM 过 程 命令 格式 


PROC GIM; 
CLASS vl v2; 
MODEL 因 变 量 y- vl v2 vl* v2; 
MEANS v3 选项 ; 


2. 选项 说 明 : 参阅 8.1. 1 ΠΤ 


[MEANS v3 选项 ;] 用 于 产生 各 个 效应 项 的 因 变 量 均值 。 若 指定 了 此 选项 , 则 检验 
主 效应 间 的 均值 。 

[MEANS νᾶ 选项 ;] 中 的 选项 如 下 ( 任 选 1 一 2 项 ): 

BON, DUNCAN, LSD, REGWF, REGWQ, SNK (Q 检验 。 常 用 )、SCHEFFE、 
SIDAK,SMM(GT2),TUKEY, WALLER, DUNNETT% D. 


822 QM 过 程 的 统计 功能 


1. GLM 胜任 以 下 的 统计 分 析 


。 一 元 回归 (简单 回归 ) 

。 多 元 回归 及 多 重 回 归 

。 方 差分 析 ( 对 非 均衡 数据 更 佳 ) 
。 协 方差 分 析 
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”反应 面 模型 分 析 
。 加 权 回 归 

MEZ ENDE 

。 偏 相 关 分 析 

。 多 元 方差 分 析 

。 重复 测量 方差 分 析 


2. GLM 过 程 中 的 建 模 形式 ( 见 表 8.6) 


表 8.6 GLM 的 建 模 形 式 


模型 说 明 模型 形式 模型 说 明 模型 形式 
MODEL Y=a bc; 主 效应 MODEL Y1 Y2—a b; 多 元 方差 分 析 
MODEL Y=a Ὁ αχ b; 主 效应 十 交互 效应 MODEL Y=a x: 协 方差 分 析 
MODEL Y=a b a(b); 主 效应 十 嵌 套 效应 


说 明 : K 8.6 中 ,a、b、c 为 分 类 变量 ,x、y 是 连续 变量 (次 序 以 上 类 型 的 变量 )。 


823 用 QM 做 单 因素 3 水 平方 差分 析 


单 因素 3 水 平 指 模型 中 有 一 个 自 变量 ,其 值 有 3 个 水 平 ( 即 3 组 )。 因 变量 是 数字 型 
变量 ,例如 人 体内 的 白细胞 数目 、 红 细胞 数目 ,或 人 的 身高 .体重 等 。 
现 有 三 组 不 同年 龄 的 受 试 者 ,体检 时 测 得 体内 的 红细胞 数目 如 表 8.7 所 示 。 


表 8.7 体内 的 红细胞 数目 (单位 : T/L) 


40 岁 以 下 
41 一 50 岁 
si Zu 


问 : 各 组 平均 红细胞 数目 有 无 显著 差异 ? 
解法 : 见 程 序 8.7。 
程序 8.7: 


DATA RBC; 


DOJ-1103; 
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4.35 5.50 4.70 4.80 5.35 4.80 5.40 4.75 5.15 
8 

4.65 3.50 5.30 4.60 5.15 4.75 5.10 3.85 

7 

4.60 5.20 5.10 4.50 4.95 5.15 4.95 


PROC GIM; 
CIASS j; /< 定义 j 为 分 类 变量 / 
MODEL x=j; /* 指定 x 为 数字 型 因 变 量 * / 

MEANS tl/SNK; /* Hi SNK 的 @ 检 验 法 检验 x*/ 


运行 程序 8.7 产生 图 8.7 所 示 的 结果 。 
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8.7 各 组 平均 红细胞 数目 差异 性 的 检验 


HO: 各 组 平均 红细胞 数目 没有 显著 差异 。 

检验 : 

从 图 8. 7 看 ,模型 的 显著 性 水 平 0. 251177a fi 0. 05 ,非常 不 显著 。 模 型 不 佳 。 

从 图 8. 7 的 因素 j 一 行 看 ,显著 性 水 平 0.2511 二 ac 值 0. 05 ,非常 不 显著 。 所 以 没有 足 
够 的 理由 拒绝 H0 ,说 明 各 组 平均 红细胞 数目 没有 显著 差异 。 


824 用 GM 做 双 因 素 方差 分 析 


双 因 素 方差 分 析 指 自 变量 有 两 个 , 因 变 量 至 少 一 个 。 现 有 男女 两 组 受 试 者 ,分 别 服 
用 三 种 减肥 药物 两 个 月 . 测 得 体重 减轻 (单位 : kg) 数 据 见 表 8.8。 问 : 三 种 减肥 药物 对 男 
女 两 组 受 试 者 的 减肥 效果 有 无 显著 差异 ? 

解法 : 见 程 序 8. 8。 

程序 8. 8: 
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38.8 测 得 体重 减轻 数据 (单位 : kg) 
因素 B( 药 物 ) 
B1 B2 B3 


Al( 男 ) 
2.5 2.7 2.3 3.1 2.8 4.13.9 3.7 4.3 


因素 A 
2.93.0 3.13.5.2,.9 4.5 4.1 4.0 3.9 
A2( 女 ) 


3.5 3.6 2.8 3.2 9.6 4.7 4.34.5 5.0 


DATA JF; 
DO a-1 7102; 
DOb-1T03; 
INEUT n; 
DO I-1 TO n; / 每 组 重复 读数 的 次 数 * / 
INEUTx 00; 
OUTPUT; 
END; 
END; 
END; 
ΤΕΟΡ I n; 
CARDS; 
2 
2:52: 
3 
2:3:3:1 2:8: 
4 
4.1 3.9 3.7 4.3 
4 
2.9 3.03.5.3.6 
6 
3.1 3:5 2.92.8 3.23.6 
8 
4.5 4.1 4.0 3.9 4.7 4.3 4.5 5.0 
PROC GIM; 
CASS a b; /* 定义 ab 为 分 类 变量 * / 
MOEL x-aba* b; /* 指定 主 效应 和 交互 效应 项 * / 
运行 程序 8. 8 产生 图 8. 8 所 示 的 结果 。 
结果 分 析 : 三 种 减肥 药物 对 两 组 受 试 者 的 减肥 平均 效果 没有 差异 。 
Ho; 三 种 减肥 药物 对 两 组 受 试 者 的 减肥 平均 效果 (平均 体重 增加 ) 没 有 显著 差异 。 
根据 因素 的 不 同 GLM 过 程 输出 两 种 形式 的 离 差 平方 和 : 
TYPEI SS: 是 按 昧 积 效 应 (有 交互 项 ) 输 出 的 离 差 平方 和 。 如 果 有 绝对 的 把 握 将 
所 有 的 因素 按 主 次 顺序 ( 先 为 主 效应 ,后 为 交互 效应 ) 出 现在 MODEL 语句 中 , 则 选择 
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8.8 三 种 减肥 药物 对 两 组 受 试 者 的 减肥 效果 的 差异 性 比较 


TYPEI SS。 和 否则 应 选择 TYPE ΙΙ SS. 

TYPE ΙΙ SS. 只 有 主 效应 时 . 按 独立 效应 输出 。 

Afli TYPE I 55. 

如 图 8. 8 所 示 : 模型 的 下 值 为 19.62, 其 概率 小 于 0.0001, 必 然 小 于 a 值 0.05, 所 以 
有 足够 的 理由 拒绝 HO。 表 明 三 种 减肥 药物 对 两 组 受 试 者 的 减肥 平均 效果 (平均 体重 增 
加 ) 有 显著 差异 。 

既然 有 差异 ,可 进一步 观察 各 组 的 情形 。 

从 图 8.8 看 .因素 a 的 下 值 为 11.16、 其 概率 为 0.0031 二 a 值 0.05, 所 以 有 足够 的 理 
由 拒绝 Ho ,表明 因素 a( 男 女 ) 两 组 的 平均 体重 有 显著 差异 。 

因素 b 的 下 值 为 43.17、 其 概率 为 0.0001 二 a 值 0.05, 所 以 有 足够 的 理由 拒绝 HO, 
表明 因素 b( 三 组 药物 ) 对 平均 体重 有 显著 不 同 的 疗效 。 

但 不 存在 ax b 的 交互 作用 。 
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协 方差 分 析 是 线性 回归 与 方差 分 析 的 结合 使 用 。 它 先 通过 回归 关系 删除 自 变 量 不 
等 的 影响 ,然后 进行 方差 分 析 。 例 如 ,在 减肥 试验 中 ,. 先 用 线性 回归 找 出 初始 体重 与 新 增 
体重 的 关系 (或 广告 量 与 销售 量 的 关系 ) ,再 计算 当初 始 体重 调整 为 相等 时 的 各 组 平均 新 
增 体重 ,然后 用 协 方差 分 析 检 验 “ 调 整 的 各 组 平均 新 增 体重 ”有 无 差异 。 

协 方差 分 析 适 合 于 本 章 开 头 所 述 的 4 种 数据 , 即 : 
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完全 随机 设计 数据 的 协 方差 分 析 ( 即 单 因素 协 方差 分 析 ) 
随机 区 组 数据 的 协 方差 分 析 ( 即 双 因素 协 方差 分 析 ) 

拉丁 方 设计 数据 的 协 方差 分 析 ( 即 三 因素 协 方差 分 析 ) 
。Rx*C 析 因 设 计数 据 协 方差 分 析 ( 有 交互 作用 的 协 方差 分 析 ) 


831 QM 过 程 命令 


1. GLM 的 命令 格式 


PROC GIM; 
CLASS vl v2; /* VA fll 如 为 分 类 变量 * / 
MDDET Y- v1 v2/SOLUTION; /* Y 为 数字 型 因 变 量 ,soroTTCN 要 求 计算 参数 估计 值 * / 
LSMEANS v4/ 选 项 ; /. 计算 v4 的 最 小 二 乘 方 均值 * / 
2. 格式 说 明 
CLASS vl v2; /* 定义 vA HI v2 Jg 4 3S IE > / 
MODEL Y- vl v2/SOLUTION; /* 指定 因 变 量 Y 和 协 变量 νι ΗΠ v2。 协 变量 即 是 自 变 量 / 
LSMEANS v4/ ji ; 
选项 如 下 : 


E: 最 小 均 方 的 估计 函数 

E= ROSE : 用 模型 中 的 某 一 项 作为 标准 误差 项 
SITERR: 最 小 均 方 的 标准 误差 

PDIFF: 输出 HO 的 检验 值 , 包 括 置信 区 间 
SINGULAR- n: 对 估计 性 检验 的 调整 
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已 知 健康 人 的 甲 胎 蛋 白 含 量 为 0 一 20ng/ml。 现 用 两 种 药物 治疗 (8 十 5) 例 受 试 者 ,两 
个 月 后 测 得 甲 胎 和 蛋白 含量 如 表 8. 9 所 示 。 试 检验 两 种 药物 对 甲 胎 蛋 白 含 量 的 平均 效用 。 


表 8.9 检验 两 种 药物 对 甲 胎 蛋 白 含量 的 平均 效用 


甲 药 zZ 药 
药 量 ( 克 ) 甲 胎 蛋 白 量 药 量 ( 克 ) 甲 胎 蛋 白 量 

580 25 530 22 
680 23 500 20 
700 25 480 18 
800 22 450 15 
900 21 488 17 
1000 20 

980 18 

940 19 
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解法 : 见 程序 8. 9 。 
程序 8. 9 : 


DATA jj; 
Do J-1702; 
INPUT n; 
D I=1 On; 
INEUT x ya Q ; 


; 


580 25 680 23 700 25 
5 
530 22 3900 20 480 18 


/*j 为 甲乙 两 种 药物 */ 


/*n 为 输入 数据 的 次 数 * / 


/* x 为 药 量 ,y 为 甲 胎 蛋 白 量 */ 


800 22 900 21 


450 15 488 17 


/* EX j 为 分 类 变量 * / 
/* 指定 x 为 数字 型 


1000 20 980 18 940 19 


JF 8. 9 产生 图 8, 9 和 图 8. 10 所 示 的 结果 
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图 8.10 由 PLOT yp*x 一 '*" 产 生 的 散 点 图 
结果 分 析 : 


HO: 检验 两 种 药物 对 甲 胎 蛋 白 含 量 的 平均 效用 没有 差异 。 


检验 : 由 图 8.9 看 ,模型 的 下 值 为 7.02,F 的 概率 值 为 0.0125—a 值 0.05。 所 以 有 
足够 的 理由 拒绝 H0, 表 明 药 物 对 甲 胎 蛋白 含量 的 平均 效用 有 显著 差异 。 可 继续 分 析 因 


素 的 作用 。 


由 于 因素 j BU Ε 值 为 13. 65, 其 概率 为 0.0041 二 a ffi 0.05。 所 以 两 种 药 在 药 效 调 整 


后 甲 胎 蛋 白 含量 的 平均 效用 有 显著 差异 。 


本 例 只 有 主 效应 ,应 该 观察 TYPE Ill SS 的 离 差 平 方 和 。 对 于 因素 x( 药 量 ), 其 下 的 
概率 为 0. 0246<a 值 0.05。 表 明 药 物 与 甲 胎 蛋 白 含 量 之 间 关 系 显著 , 即 x joy ze] ti Eu 


线性 关系 。 


所 以 调整 后 的 直线 模型 为 : 甲 胎 蛋 白 含 量 二 25. 00575355 一 0.01349214 * 药 量 。 


两 组 调整 的 均值 分 别 如 下 : 


Y(1)=7.71653464 
Y (2)= 0.00000000 


因为 y 的 检验 概率 了 Xy 0. 0041—a ff 0.05., 所 以 Y(1) 一 组 调整 后 的 平均 甲 胎 蛋 白 


含量 显著 差异 。 但 是 Y(2) 例 外 。 
从 图 8. 10 看 ,药物 与 甲 胎 和 蛋白 含量 之 间 的 线性 关系 显著 。 


为 了 练习 多 种 编程 方法 ,对 程序 8. 9 改 用 INPUT 语句 输入 ( 见 程序 8. 10). 


程序 8.10: 对 程序 8.9 ΜΗ INPUT 语句 输入 。 
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DATA 112; 

INETjxyG80; /*j 为 药 组 ,x 为 药 量 ,y 为 甲 胎 蛋 白 量 */ 
CARDS; 

1 580 25 1 680 23 1 700 25 1 800 22 1 900 21 1 1000 20 

1 980 18 1 940 19 

2 530 22 2 500 20 2 480 18 2 450 15 2 488 17 


P 


PROC GIM; 
CIASS j; /* 定义 j 为 分 类 变量 * / 
MODEL Y= x j/SOLUTION; /* 指定 x 为 数字 型 因 变 量 * / 
LSMEANS j/SITERR; 
OUTPUT P= yp; 
PROC PIOT; 
PLOT yp* x= '* '; /* Far FH" * ”组 成 * / 
RUN; 


运行 程序 8. 10 同样 可 产生 图 8. 9 和 图 8. 10 所 示 的 结果 。 
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1. 常用 的 方差 分 析 法 有 哪 4 种 ? 

2. 均衡 数据 和 非 均衡 数据 各 用 什么 过 程 命令 进行 分 析 ? 

3. 对 血小板 偏 低 者 用 4 种 不 同 的 药物 治疗 后 血小板 的 数据 见 程序 A. 36。 试 用 
PROC ANOVA 命令 检验 4 种 药物 平均 疗效 有 无 显著 差异 。 

程序 A. 36: 


DATA f27 
ΡΟ 1-1 ΤΟ 8; 
Ώοσ-1 TO 4; 
INETYGG; 
OUTPUT; 
END; 
END; 
CARDS; 
10.1 9.0 10.6 10.1 
9.5 11.2 9.2 11.5 
10.0 11.6 10.0 10.2 
9.2 10.8 8.9 10.5 
8.5 10.0 8.8 11.5 
9.0 10.2 8.4 10.6 
9.5 11.8 10.1 10.5 
10.1 11.8 10.5 11.9 
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PROC ANOVA; 
CLASS ig; 
MEL Y-i g; 
MEAN g/DUNNETT; / 增加 两 两 比较 的 功能 * / 


4. GLM 过 程 的 统计 功能 有 哪些 ? 
5. 试用 GLM 过 程 检验 程序 A. 37 中 各 组 平均 红细胞 数目 有 无 显著 差异 。 
程序 A. 37 : 


DATA RBC; 
DO J-17103; 
INPUT n; 
DOI-1TOn; 
INFUT x Q8; 
OUTPUT; 
END; 
END; 
CARDS; 
9 
6.35 6.50 6.70 5.80 6.35 6.80 6.40 5.75 6.15 
8 
5.65 5.50 6.30 5.60 5.15 5.75 6.10 6.85 
7 
3.80 5.20 5.10 4.50 4.95 5.15 5.85 


P 


PROC GIM; 
CLASS j; /* 定义 了 为 分 类 变量 * / 
MODEL x-j; /* 指定 x 为 数字 型 因 变 量 * / 
MEANS tl/SNL; /< 用 πικίϑ @ 检 验 法 检验 */ 


6. 已 知 健康 人 的 甲 胎 蛋 白 含 量 为 0 一 20ng/ml。 现 用 两 种 药物 治疗 (8 十 6) 例 受 试 
者 ,两 个 月 后 测 得 甲 胎 蛋白 含量 如 程序 A. 38 所 示 。 试 检验 两 种 药物 对 甲 胎 蛋 白 含量 的 
平均 效用 。 
程序 A. 38: 
DATA jj; 
DO J-1T02; /# 了 为 甲乙 两 种 药物 * / 
INPUT n; 
DE1 Dn /xDn 为 输入 数据 的 次 数 * / 
INEUT x yee; /* 六 为 药 量 ,y 为 甲 胎 蛋 白 量 */ 
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8 
580 25 680 23 700 25 800 22 900 21 1000 20 980 18 940 19 


530 22 500 20 480 18 450 15 488 17 500 19 


CLASS j; /x 定义 为 分 类 变量 / 
MODEL Y- x j/SOLUTION; /* 指定 x 为 数字 型 因 变 量 * / 


相关 分 析 的 数据 ,基本 上 可 以 分 为 四 对 (类 型 ): 中 定 类 一 定 类 ( 即 : 标 称 一 标 称 ) 、 
@“ 定 序 一 定 序 ”( 即 : 次 序 一 次 序 )、@“ 定 类 或 定 序 一 定 距 ”( 即 : 非 连续 数据 一 区 间 )、 
@“ 定 比 一 定 比 *( 即 : 比例 一 比例 ) 。 

相关 系数 是 一 个 “无 单位 ”的 系数 ,其 值 的 大 小 表示 线性 相关 程度 的 强 弱 。 正 负 相 关 
系数 表示 相关 的 方向 为 正 或 为 负 。 通 常用 字母 + 表示 相关 系数 ,r 值 的 范围 为 : — 19r 
1, ?4 r=0 时 ,说 明 两 个 变量 不 一 定 无 关 , 而 是 呈现 着 不 规则 的 变化 。 

SAS 中 的 线性 相关 主要 包括 : 皮尔 了 还 (Pearson) 的 积 差 相关 、 斯 皮尔 曼 (Spearman) 
的 等 级 相关 、 肯 氏 (Kendall) 的 等 级 相关 以 及 Hoeffding 的 D 相关 系数 。 
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在 讨论 变量 的 相关 之 前 .只 有 和 弄 清 变量 的 层次 才能 准确 地 应 用 相关 公式 求 出 变量 间 
的 相关 程度 。 变 量 的 层次 有 如 下 4 种 。 

COD 标 称 变量 (Nominal Variable): 国内 称 之 为 “ 定 类 变量 ”或 “名 义 变量 ”"。 其 变量 
值 无 等 级 、 次 序 之 分 ,而 仅仅 是 表示 东西 南北 、 张 三 李 四 或 男性 女性 之 别 , 所 以 被 国际 上 
通称 为 标 称 变量 。 这 种 变量 是 4 种 变量 层次 中 最 低 的 一 种 。 

(2) 次 序 变量 (Ordinal Variable): 国内 称 之 为 “ 定 序 ” 变 量 。 其 值 有 等 级 高 低 、 次 序 
先后 之 分 。 例 如 分 组 后 的 “教育 水 平 * 变 量 , 其 值 可 以 是 小 学 、 中 学 、 大 学 程度 等 层次 。 又 
例如 ,职务 这 个 变量 ,其 值 可 以 是 科 员 、 科 长 、 处 长 等 级 别 。 这 种 变量 是 4 种 变量 层次 中 
次 低 的 一 种 。 

G) 区 间 变 量 (Internal Variable): 国内 称 之 为 “ 定 距 ”变量 。 其 变量 值 既 有 等 级 和 次 
序 之 分 ,又 可 测量 出 某 区 间 的 值 :例如 温度 或 气温 ,不 但 具有 次 序 变量 的 性 质 , 而 且 还 可 
以 反映 今天 比 昨 天 气温 高 出 多 少 度 。 这 种 区 间 变 量 的 层次 高 于 次 序 变 量 , 居 于 第 二 位 。 
区 间 变 量 只 有 温度 (气温 )、 海 拔高 度 等 极 个 别 的 变量 。 

(4) 比例 变量 (Ratio Variable): 国内 称 之 为 “ 定 比 ?变量 ,其 变量 值 既 具有 次 序 变 量 
和 区 间 变 量 的 性 质 , 还 存在 一 个 有 意义 的 “零点 ”。 例 如 , 甲 高 2 米 , 乙 高 1 米 , 甲 则 是 乙 
的 两 倍 和 高度。 又 例如 一 个 人 的 血压 不 能 是 Omm 水 银 柱 .这 个 有 意义 的 0 在 这 个 变量 中 
起 着 质 的 变化 。 这 样 的 变量 是 比例 变量 ( 定 比 变量 ), 它 是 4 种 变量 层次 中 的 最 高 级 。 
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以 下 的 章节 将 对 这 4 种 变量 的 水 平 (level) 及 其 测量 方法 ,各 举 出 一 个 例子 加 以 
比较 。 


92 JXÍK ZR AETHER 


当 两 个 分 析 的 变量 ,其 值 为 比例 一 比例 变量 的 层次 时 ,不仅 可 以 研究 其 相关 程度 ,而 
且 还 可 以 研究 其 相关 方向 是 线性 或 非 线 性 的 。 本 节 主 要 是 采用 皮尔 逊 相 关公 式 来 研究 
变量 之 间 是 否 存在 线性 相关 。 这 种 相关 应 考虑 到 xz 与 y 变量 值 本 身 的 大 小 。 


921 皮尔 逊 相关 系数 OCORR 的 计算 公式 


皮尔 逊 相 关系 数 CORR 的 计算 公式 如 下 : 
R= >) xy/GS,S,) = D(X— XXY — Y/(GS,S,) (9.1) 


公式 (9.1) 中 ， 
S; 是 变量 XX 的 标准 偏差 。 
S, 是 变量 Y 的 标准 偏差 。 
X 是 变量 X 的 平均 值 。 
Y EXE Υ 的 平均 值 。 


922 皮尔 逊 相关 系数 的 测量 


下 面 图 ο. 1 中 的 变量 及 其 数据 ,是 1991 年 北京 大 学 郭 崇 德 教授 关于 北京 市 等 大 中 
城市 社区 服务 研究 中 《居民 调查 》 的 数据 ,笔者 从 几 千 名 受 访 者 中 随机 抽取 66 名 ,以 计算 
人 均 月 结余 Vio( 定 比 数据 水 平 ) 与 人 均 居 住 面 积 Av8f( 定 比 变 量 水 平 ) 之 间 的 皮尔 逊 
(Pearson) 相 关系 数 。 

程序 9. 1 : 


DATA sq; 
INEUT Id 1- 2 caseid 3- 5 age 6- 7 sex 8 
edc 9 wk 10 fm 11 V6f 12 V7f 13- 14 
νθε 15- 16 V9f 17 v10a 18 v10b 19 v10c 20 v10d 21 vi 22- 24 vo 25- 27; 
IF age- 0| sex- ΟΙ fre ΟΙ edc- 0| wk- 0| V6E- 0| v7£— 0| v8f= 0| νϑΕ-- 0 THEN DELETE; 
IF vi- 0| vo- 0| v7£- 0| v8£- 0 then delete; 
oi= vo/vi; vio- vi- vo; av8f- v8ft/v7f;av- vi/vIf; 
IABEL sex- 户主 性 别 ' edc- 文化 程度 ' we ' 具 体 工 作 ' 
ID- ' 区 与 街道 代号 ' caseid- ' 问 卷 号 ' 
fm "婚姻 状况 ' ver- LIRA? ' vit- ' 总 人 数 ' V8 三 "居住 面积 ' vor- ' 住 房 类 型 ' 
viOa- 煤气 ' vidoe- ' 了 卫生间 ' vioc- "暖气 '  vioa- ' 自 来 水 ' 
VW=' 月 收入 :元 ' We=' 月 开支 :元 '; 
CARDS; 
1100141152230528100017133500110803010101010102003443222120001000001000 


1100269250230542301113002500100004020201000102031111113020001000102000 
1100374156130644110016504501000003020100000102081104433110004000000000 
110306714223063620001 3202000100002030201010702051132333130003000001000 
1103156142230625210013603001100802000300000102001133333130002000021000 
1103234243230736110013903900100000000000000102003202213120002000021060 
1103378136230930210017004000101204010101000102002344332130000000001050 
1103455136230733210016205501101103000000020102001103333120001000011000 
1103558136220324100012702400100000000000000102003242243120010100100050 
1106725233210215210114003000000000000000000000003334433120000000001000 
1106840242220311210013003000000803000002000000003304342000001000010000 
1106964120220218210012001700000003000000000000001111111102000001000000 
1107053155220330110013002000001102000000000102092253432130002000031000 
1107162216230742210113502001000005040000000100001153333320000000041060 
1201358246200040300014003001101000000000000102003402111121110111101010 
1201459152220433411116502800100801020100020102052342221111110000000070 
1201561226230454410111200501100010030000000105002442222110000001310060 
1201630242230635410114004001100802010201100102083533331120003000101020 
1201761226230750311116504001100006030000000103003343433120100100001050 
1201823146220440311116003000100901010100000102032254433120000000000010 
1201967216430437301115504000100004020000000000002222222120000000121000 
1202067154230424311114000000100003020100000102063452322120000000010000 
1202129155230800311113503001101201000203000102051231122110000000010020 
1202263230220338411113003500100004030300000102082222222122100101001000 
1204655216240425300113833001100006020000040107091121122120000000151010 
1204777120210236311112832000100000020100050102093231111120050304100040 
1204837232220342311113500000000102000000000108001332223120001000111000 
1204955226210226411112501700000005030001000107002232233110000100111060 
1207330141220334311113001501000000000000000102003332222020001000011000 
1207459232230547411116004001100007020100000105073204433120002000020000 
1207552242020355411114002000000002020200000102091101111100000000000000 
1207628132220325311113002001000801020200000104002242222120001000010020 
1207726252120325311115004000000801000300000102001121122120001000111010 
1300365250231060201019999991100008030100000102091141133120000000000000 
1300465245220450411115302000100204020202000102081133333120000000001000 
1301935240231160210015004001100800000002000000111141221120003000211000 
1302063231231221210018007000100003000000000102003000000300001000010000 
130216313223043011001 3002001000003000100000206092351131021000300101040 
1302223156120618200006006001000000000300000207001111111120001000000050 
1302354220231620210001441001100010000100000102003353333120003000001000 
1302465254230438411114002500100003000200020102052243333120000000000000 
1302561131230343411112801000000002030400000000002353333100000000000000 
1302660244230660411112001801100005000002000102003344343120020011201030 
1302763120210222210013702000100601000000000100002353333120000000011000 
1302871152200040210012001500000002010001000102072332222110000000001020 
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1302968254430551210012402000100206030100000107082343333130004000000000 
1305132241230523210004803001100005010101020102081111111120000000110000 
1305280126230527210015004000100004020100170102073343332330000000001000 
1305338152220415210011000800100804010101010100001211111020001000011030 
1305431241230612110006003501100000000000000102111254332100004000051000 
1305563226430730200007005001100010010000000102003453332100000000001000 
1305642141220428200015003600101102020101070108112341111120000000011000 
1307769222440432311113502501000604010101000102042353333120700000001020 
1307852252120337411113502500000802000301020102112333332120000000001000 
1307960200230400110005003501000009010103000000002353233120000000001000 
1308049254220319100014002500000803020300080102001353333330001000001000 
1308123156120436210011104400000800000000000102043455544330002000021000 
1308257111230624200010000000110802000000000500001202223020000000001020 
1400571226430416310014503000100004020102010103041111111110000410101010 
1403071216430418200002402400100006020000040111003333223121000100101040 
1403150136220417210012352350100000000000000000003453324330002000101010 
1403260226230416110001421300100004040000020107004455133120004000051000 
1407138133220320110004003500000803000002030104003453522120000000101040 
1407254136230720200014002801111201020100000102001243342120230100311000 
1407357211330620310018004001000008000000000103002335323120000000111050 
1407445151220310200013503000000803000101010102003355533120000000001030 
RUN; 
PROC FORMAT; 
VALUE sex 1- '1' 2- '0'; 
VALUE sex l= B ' 2- "x; 
VALUE edc 1- 'X Fi ' 2- v]? 3- "Wr 
4- "高 中 或 中 专 ' 于 ' 大 专 以 上 ' 
VALUE id 11-- ' 东 城区 东 四 居委会 ' 12= ' 东 城区 安 德 里 居委会 ' 
13- "东城 区 赵 家 楼 居委会 ' 14- ' 东 城区 南小 街 居委会 ' 
31- ' 宣 武 区 牛 街 街道 办 ' 327 ' 宣 武 区 广内 街道 办 ' 33- 宣武 区 天 桥 街 道 办 ' 
a= ' 海 淀 区 中 关 村 七 区 ' 42= ' 北 太平 庄 萄 门 里 居委会 '; 
VALUE wk 1- "LA ' 2- "E Bb BLA) 3 "商业 服务 人 员 ' 
4- "教员 ' 于 ' 科 研 或 技术 人 员 ' 6- ' 其 他 '; 
VALE fm l= ' 未 婚 ' 2- 已 婚 ' 3- ' 离 婚 ' 4- "ΕΜ; 
VALUE V9F l= ' 四 合 院 ' 2- "普通 平房 ' 3 ' 一 般 楼 房 ' ᾱ- "高 层 塔楼 
5- "其 他 活动 房 等 …; 
VALUE av8f LOW- 5- '1' 5- 6- '2' 6-7- '3' 7- 8- "4" 
8- HIGH- '5'; 
VALUE av8£ 1- A3]. 5 平米 以 下 ' 22 ΛΗ 56 平米 以 内 " 
3- AS] 6 7 平米 以 内 ' 入" 人均 7- 8 平米 以 内 ' 
5- "人 均 8 平米 以 上 '; 
VALUE vio LOW- - 200= '0' - 200- - 100- '1' - 100- 0= '2' 
0- 00= '3' 100- 200- '4' 200- HIGH- '5'; 
VALUE Vio 1- ' 月 结余 : - 200 3€ - 10036 ' 22 ' 月 结余 : - 100 € 0076 " 
3- ' 月 结余 : 0035 100765 ' 4- ' 月 结余 : 100 € 20076" 
于 ' 月 结余 : 200 元 以 上 '; 
PROC CORR; VAR vio av8f; 
RUN; 


进入 Analyst( 分 析 家 ) 对 话 框 的 步骤 如 下 : 


第 章 相关 分 析 181 


(1) 在 图 9. 1 所 示 的 程序 编辑 器 中 编辑 程序 9. 1, 按 F8 键 运行 程序 9. 1 及 其 数据 ， 
产生 SAS 数据 集 Work. sq。 


T SAS -| 程序 编辑 器 — (无 标题 ) | - JS) 


DEZIONME: [ONE E TUMB TUNE SIGNE DLSEISONEPTIONE D)I6] BLE 
Ee e X Ba (f o (5 


viOa 18 viOb 19, vlOc 20 
=0| w=0| v6R-0 | v7£-5 | vat-0| VOF: 


ITE 
E we RETE" 


oi=vo/vi 


EEEE vor 住房 类 型 
vioée Bde 


E 


Er 
Put ie 


viop- IE faje 
ΠΠ; 


5001102030101010101 
J01000040202010901 


Renan 2R; VALUE ede 1E ον b on 初中 


VALUE wk 
VALUE fn 1- 
VALUE VSF 

VALUE 
VALITE 


VALITE 


4: 10088 00 


2002-10077 s 
月 结余 ;100 至 200 元 ” 5-’ 月 结余 :200 元 以 上 ' ; 


Hm s 


[Roc CORE; VAR vio av8f; 


图 9.1 编辑 程序 和 数据 文件 


(2) 选择 SAS 主 菜 单 中 的 “解决 方案 ”( 英 文 版 为 Solutions) —" 2r Br" CAnalysis) für 
令 ,选择 图 9. 2 所 示 的 “分 析 家 ”(Analyst) 命 令 。 


SAS - [程序 编辑 器 - 程序 9.1.sas] 


开发 和 编程 (D) 
1302968254430551210012402000100208030100 — 报表 (R》 
[13051322412305232 1000480300 110000501010 : 
μη μα peni 
ECC ΡΟΝ Emi 
1305842141220428200015003800101102020101 AKO etree 
1307763222440432311113502501000604010101 。 EIS/OLAP 应 用 程序 生成 器 (E) 交互 式 数据 分 析 (D 
130785225212033741111350250000080200030 让 re 一 一 | 
[1307960200230400110005003501000003010103000000002353233 12000000000 1000 投资 分 析 (N) 
1308049254220313100014002500000803020300080102001353333330001000001000 市 场 研究 (MW) 
1308123158120436210011104400000800000000000102043455544330002000021000 
1308257111230624200010000000110802000000000500001202223020000000001020 项 目 管理 (P) 
1400571226430418310014503000100004020102010103041111111110000410101010 
1403071218430418200002402400100008020000040111003333223121000100101040 质量 改善 (Q) 
1403150136220417210012352350100000000000000000003453324330002000101010 pnm 
140326022623041811000 142 1300 100004040000020 107004455 133 120004000051000 
4071381332203201 10004003500000803000002030 104003453522 120000000101040 时 间 序 列 预 测 系统 (E) 
1407254138230720200014002801111201020100000102001243342120230100311000 
1407357211330620310018004001000008000000000103002335323120000000111050 时 间 序 列 查 看 器 (D 
1407445151220310200013503000000803000101010102003355533120000000001030 


sean 
A NRTA 
AoE 
GSA 


MALIE war 1= 


ΕΕ 


(3) 选择 “分 析 家 ”(Analyst) 一 “文件 ”(File) 一 “ 按 SAS 名 称 打开 ”(Open By SAS 
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Name) Work 命令 和 按钮 .进入 图 9. 3. 


aS New Project 
È (i Untitled Analysis 


国 和 输出 -〈 无 标题 ) | 自 日 志 -《〈 无 标题 ) | [X 程序 编辑 器 - 程 … ΙΕ ΤΣΗ 


图 9.3 Work. sq2 工作 文件 


(4) 选择 文件 名 Sq2 后 单 击 * 确 定 ”( 或 OK) 按 钮 ,展示 Work. sq2 数据 集 的 内 容 , 见 
图 9.4。 


Y. SAs - [Analyst: (new project)] [- fex) 


all New Project 
EJ ay 532 Analysis 


essa] 


到 


国 和 输出 - 《无 标题 )》 | 自 日 志 - CREDO | 国 程序 编辑 器 - 程 .. 3 EET T 


9.4 Work. sq2 文件 的 内 容 ( 部 分 ) 


(5) 选择 “统计 ”(Statistics) 一 “描述 性 统计 ”(Descriptives) 命 令 ,展示 如 图 9. 5 所 示 。 
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部 μπε WSO 查看 (9) TAM 数据 (D) JERR) EEG) ΕΞΟΝ WHD -Sx 


| z| πώ E s 
——S ONE. 

iB New Proisct. Essi μοὶ κ —E 

ἐ (δ Sa? Analysis ᾽ - t z 

L MEZ 1 5 E 

ΠΕ 1 4 z 

ME 2 4 Ξ 

78 1 3 E 

55 1 3 ε 

58 1 8 ε 

25 2 3 z 

40 2 4 Ε 

53 1 5 E 

e2 2 1 E 

E 1 5 z 

61 2 2 E 

30 2 4 z 
B 2 2 Επ 
s Fs 

ή - 
中 DRE. WRD ΤΠ -《 无 标题 ) | 加 程序 编辑 器 ΤΕ. [113 Analyst: (new pr... 
fi lesas — 


(a) SAS 9.0 以 上 版 本 的 对 话 框 
[Analyst: (new project)] 
33 New Project 


D Sc Analysis 


(b) SAS 8e 及 以 上 版 本 的 对 话 框 


9. 5 Correlations 的 菜单 位 置 


(6) 选择 “相关 ”(Correlations) 命 令 .进入 图 9. 6 并 设置 变量 。 
(7) 单 击 Options. HEA BI 9.7 选择 皮尔 逊 相关 系数 Pearson. 
(8) 单 击 两 次 OK 按钮 ,输出 图 9. 8 所 示 的 结果 。 


923 皮尔 逊 相关 系数 OORR 的 分 析 


人 均 月 结余 与 人 均 居 住 面 积 的 皮尔 逊 积 差 相 关系 数 如 图 9. 8 所 示 。 
当 H0; Rho—0 时 ,Prob > |r| under: 表示 原 假设 相关 系数 R 为 0 时 的 概率 值 P。 
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ΗΕ SEV IAD 解决 方案 (5) 窗口 (ew) 玫 助 4 
| -]|Du E & δι: {επ πι: ΧΕ»"ι: 


{κ f 


= Correlations: sq2 区 | 


Options Plots | Save Data 


Titles | Variables | 


文件 (E) FEV IAD 解决 方案 (3) HOW 帮助 (H) 
v | Du Ἡ & ài? Dem om I X ED | 


Correlation types Print 


[Pearson EJP-values 

LISpearnan, [Descriptive statistics 

Bonam 
πο 

DHoeffdine’s D Correlation format 

S Rectangular table 

OHithest to lowest 


Pearson options 


eaer's Exclude missing values — 


matrix @Pairwise 
口 SSCP matrix OListwise 


Ἀ 北京 大 学 - Mi 


9.7 选择 皮尔 逊 相关 系数 


T. SAS - [Correlations of Sq2] 


简单 统计 量 
均值 标准 偏差 总 和 最 小 值 最 大 值 
119.16000 122.46172 5958 -330.00000 400.00000 
6.93019 3.1417 346.50952 1.75000 14.33333 
Pearson 相关 系数 ，N = 50 
34 H0: Rho=0 Hi » Prob > Irl 
vio av8f 


1.00000 0.03445 
0.8123 


0.03445 1.00000 
0.8123 


i ee- 


9.8 皮尔 逊 积 差 相 关系 数 
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由 于 P 值 ==0. 8123, 大 于 a 值 0.05, 所 以 相关 系数 不 显著 。 
又 因为 r 二 0.03445, 说 明 人 均 月 结余 与 人 均 居 住 面积 ”的 皮尔 逊 积 差 相 关系 数 极其 
小 ,几乎 无 关 。 建 议 将 样本 量 增多 到 几 百 个 ,然后 再 试验 。 
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当 一 个 变量 是 0 与 1 编码 的 二 分 变量 (如 性 别 编码 为 : 1 男 .0 女 ), 另 一 个 是 定 距 以 
上 变量 时 (如 成 绩 、 收入、 奖金 .血压 等 ) ,如 果 没 有 Eta 系数 供 选 择 时 ,也 可 试用 上 面 介 绍 
的 皮尔 逊 积 差 相关 系数 测定 是 否 相 关 。 但 慎 用 ! 

1. 统计 步骤 : 参阅 9.2.2 节 的 步骤 (1) 一 (6) 。 

2. 相关 系数 选择 : 参阅 9. 2. 2 节 的 步骤 (7) , 单 击 Pearson 相关 统计 量 。 

3. 结果 分 析 : 参阅 9. 2. 3 节 。 
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肯 氏 的 等 级 相关 系数 rm ,与 斯 皮尔 曼 的 等 级 相关 系数 R. 具 有 相同 的 用 法 , 即 : 用 了 
次 序 一 次 序 变 量 的 相关 测量 。 例 如 ,如 果 计 算 X.Y 两 个 变量 的 相关 时 . 则 只 考虑 X 与 Y 
变量 值 的 大 小 顺序 (等 级 ) ,而 不 考虑 变量 值 本 身 的 大 小 。 

肯 氏 等 级 相关 与 斯 皮尔 曼 等 级 相关 ,二 者 在 计算 公式 上 有 所 区 别 。 肯 氏 的 计算 公式 
是 基于 : 对 X,Y 这 一 对 变量 值 * 和 谐 对 ”(Concordant) 占 多 少 ,“ 不 和 谐 对 ”(Discordant) 
占 多 少 , 二 者 之 差 作为 分 子 、 并 以 样本 规模 n 所 形成 的 总 对 数 C2 — nO — 0/2 作为 分 母 
而 计算 相关 系数 τι {9 . 

和 谐 对 ,是 指 在 同一 个 OBSOULZE (BD rP «XY 两 个 变量 值 都 高 于 (或 都 低 于 ) 另 一 个 
OBS( 观 察 值 ) 中 的 相应 变量 值 。 和 谐 对 用 P Xm. 

不 和 谐 对 ,是 指 在 某 一 个 OBS( 观 察 值 ) 中 .变量 X 的 值 大 于 另 一 个 OBS( 观 察 值 ) 中 
的 X 值 ;而 YY 变量 的 值 正好 相反 。 它 用 字母 Q Xon. 

肯 氏 公式 还 用 到 相持 CTied) 概 念 。 即 : 一 对 观察 值 OBS( 即 个 案 ) 中 ,车 有 一 个 变量 
(或 两 个 变量 ) 的 值 对 应 相等 , 则 称 该 对 观察 值 OBS( 问 卷 ) 是 相持 的 。 

相持 还 分 为 相持 在 X 变量 上 ( 记 为 Tx) ,或 相持 在 Y 变量 上 ( 记 为 Ty)。 例 如 甲 身高 
1.7 X AKE 65 公斤 , 乙 也 身高 1.7 米 、 但 体重 60 公斤 ,这 时 甲乙 两 个 观察 值 ( 人 ) 是 相持 
在 “身高 ”变量 上 。 

因此 , 肯 氏 相关 系数 上 me 的 计算 公式 为 : 

τν SEQ (9. 2) 
CP-FQ-FTx)»*CP-rFQ-Jd νὴ 
肯 氏 相关 系数 的 计算 公式 还 有 其 他 种 ,因为 不 常用 而 省 略 。 


941 计算 肯 氏 等 级 相关 系数 的 数据 
下 面 图 9. 9 中 的 变量 及 其 数据 是 1991 年 某 些 大 中 城市 社区 服务 研究 中 关于 《居民 
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国 XPO WO Έξω 工具 (D ἘΠῚ 解决 方案 (了 人 窗口 GO 帮助 (d) -ὃ κ 


| --- -z|DeBéentxse5usose 


四 


人 


ο σσ 
"m 
TTE 《无 标 .…| 四 日 志 - 《无 标 … LEM ne 
Es 
图 9.9 居民 调查 数据 中 的 “等 级 一 等 级 "数据 
调查 ) 的 数据 。 
程序 9.2: 见 图 9. 9。 
其 中 : OD Vio 是 人 均 月 结余 ,分 组 为 6 个 等 级 : 
LOW-200 75 — '0' —200 75-100 75 — "1" — 100 元 -0 75 — '2' 
0 765-00 76 — '3" 100 75-200 J= "4" 200 -HIGH — '5'; 
(2) Av8f 是 人 均 居住 面积 :分 组 为 6 个 等 级 : 
LOW —60 3&? = '0' 60? —70 o? = 1" το X? —80 X? = '2" 


802K*—90 K* —'3' 902K*—1009K?— 4" 100 X? — HIGH '5'; 

要 求 : 计算 人 均 月 结余 Vio( 等 级 定 序数 据 水 平 ) 与 人 均 居 住 面积 Av8f( 等 级 定 序数 
据 水 平 ) 之 间 的 肯 氏 相关 系数 τι. 

解法 见 9. 4.2 节 。 


942 通过 Anays 中 的 对 话 框 计算 肯 氏 相关 系数 τι 


操作 步骤 如 下 : 

(1) 运行 图 9. 9 中 的 程序 生成 数据 集 sq2 。 

(2) 选择 SAS 主 菜单 中 的 “解决 方案 ”( 英 文 版 为 Solutions) 一 “分 析 ”(Analysis) 命 
令 , 鼠 标 指针 移 到 图 9. 10 带 有 阴影 标记 的 “分 析 家 ”(Analyst) 命 令 上 。 

G) 选择 “分 析 家 ”(Analyst) 一 “文件 ”(File) 一 “ 按 SAS 名 称 打开 ”(Open By SAS 
Name)— Work 命令 和 按钮 .进入 图 9. 11. 


2C 相关 分 析 
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E 
Id 1-2 caseid 3-5 age 


7 sex 8 
edc 9 wk 10 fm 11 Yef 12 ΥΕ 13-1 


76 YAf 17 viða 18 vlüb 
|fm=0|edc=D|wk=01Y6F=0|v7f 


ASSIST(D 

Ax 

EISOLAP 应 用 程序 生成 器 (E) 
VIT EXC 


30 可 视 分 析 (V) 


企业 数据 挖 扬 (E) 
地 理 信息 系统 () 
向 导 式 数据 分 析 (G) 
交互 式 数 据 分 析 (D 
投资 分 析 (N) 


市 场 研究 (d) 

项 目 管理 (P) 

质量 改善 (9) 

排队 模拟 (U) 

时 间 序 列 预 测 系统 (F) 
时 间 序列 查看 器 (DD) 


文件 (E) 查看 ( IAV 解决 方案 (5) SOW 帮助 (由 


~ J osaan: 


17.0kB Table 
17.0kB Table 
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9.11 Work. sq2 工作 文件 


(4) 选择 文件 名 Sq2 后 单 击 OK 按钮 ,展示 Work. sq3 数据 集 的 内 容 , 见 图 9. 12。 


Y. SAS - [Analyst: (new project)] 


AP 文件 E) 编辑 (E) Ἔξω 工具 (D 数据 (D) 报表 (R) 图 形 (G) HIKI 窗口 (W) MD 

|» J| 0 ως: πὰ: Πε 5 πα 
aS New Project 
E) (lj 5α3 Analysis 

HE sa3 


T" 
12 


8d8989g98898o50- 


9.12 Work. sq2 文件 的 内 容 ( 部 分 ) 
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(5) 选择 “统计 ”(Statistics) 一 “描述 性 统计 ”(Descriptives) 命 令 ,展示 图 9. 13. 


IP 文件 (F) 编辑 (E) 查看 (Y) 工具 (T) BEO) 报表 (R) BEG) 
| J| ὦν a 


ABl New Project 
ΕἸ (8ψ 832 Analysis 


图 9. 13 Correlations 的 菜单 位 置 


(6) 选择 “相关 ”(Correlations) 命 令 , 进 入 图 9. 14 并 设置 变量 。 


ΩΩ 


vie 
avf 


9.14 选择 人 均 月 结余 与 人 均 居 住 面 积 两 个 变量 


(7) 单 击 Options ,进入 图 9. 15 选择 Kendall? s tau-b 相关 系数 。 


πρ EEV 工具 (D 解决 方 案 (5) WOOD 帮助 中 = iu 
Y -]|D c m & (ài? Πε πι wl X Em 


Correlation types Print 


日 pearson P-values 
DSpearman, 固 Descript ἵνα statistics 
DCronbach”s alpha. 

国 Kendall’s tau-b 
DhHoeffdine’s D 


Correlat ion format 


Rectangular table 
OHighest to lovest 


Pearson options —— 
Exclude missing values 


9.15 选择 Kendall's tau-b 相关 系数 
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(8) 单 击 两 次 OK 按钮 ,输出 图 9. 16 所 示 的 结果 。 


Y: SAS - [Correlations of Sq2] 


简单 统计 量 
标准 偏差 中 位 数 fau 最 大 值 
118. 18000 122.48172 100.00000 -330.00000 400. 00000 
3.12417 6.50000 1.75000 14.33333 


6.33019 
Kendall Tau b 相关 系数 ,N= 50 
3$ H0: Rho=0 时 ，Prob > Irl 

vio av8f 


vio 1.00000 0.08467 
0.4000 


avaf 0.08467 1.00000 
0.4000 
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图 9.16 肯 氏 相关 系数 mn 的 结果 


943 肯 氏 相关 系数 ro 结果 分 析 


如 图 9. 16 所 示 : 

概率 值 P—0. 4 很 不 显著 ,显然 不 可 以 拒绝 相关 系数 是 0 的 假设 ,而 且 样 本 的 相关 系 
数 只 有 0. 08467 ,接近 于 0, 说 明 从 此 样本 看 ,人均 月 结余 Vio( 等 级 定 序 数据 ) 与 人 均 居 住 
面积 Av8f( 等 级 定 序数 据 ) 之 间 几 乎 不 存在 肯 氏 等 级 相关 。 


95 于 算 奖 序 一 比率 数据 的 肯 拓 和 相 闫 系数 
所 谓 次 序 一 比率 数据 是 指 只 有 一 个 变量 是 次 序 ( 或 等 级 ) 数 据 , 另 一 个 变量 是 定 距 以 
上 的 百分比 数据 。 


951 次 序 一 比率 数据 例子 


上 一 节 是 计算 等 级 数据 的 肯 氏 等 级 相关 系数 ,本 节 试 计算 非 等 级 数据 的 肯 氏 相关 系 
数 。 数 据 见 表 9. 1。 
表 9.1 文化 程度 与 消费 比率 变量 的 关系 示例 


消费 比率 王 月 支出 /月 收入 


文化 程度 ( 定 序 变量 edc) 月 收入 (元 ) 月 支出 (元 ) (百分数 变量 ois 单位 %) 
1. 文盲 400 300 7596 
2. 小 学 500 400 80% 
3. 初中 600 500 83% 
4. 高 中 ( 含 中 专 ) 700 600 86% 
5. KRIE 800 700 88% 
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952 计算 次 序 一 比率 数据 的 Ba 系数 


计算 “次 序 一 比率 ”数据 应 该 用 Eta 系数 ,但 是 SAS 系统 暂 缺 Eta 系数 ,笔者 只 好 用 
肯 氏 相关 系数 作为 参考 ( 注 : SPSS 中 的 CROSSTABS 过 程 有 Eta 系数 ) 。 

(1) 数据 : 见 图 9.17 所 示 的 社区 调查 数据 。 

程序 9.3: 见 图 9.17. 


SAs - [程序 编辑 器 - 程序 9.3.sas] 


Ιω πα αμ 20. ὙΠ 9 -24 
owi =0 vBf= NSF-U. THEN DELETE: 


j^ (EEG verti 
“煤气 ， vl0b=” "BRK 
收入 :元 ”Yo= AF: 


ARDS: 
1407357211330620310018004001000008000000000103002335323120000000111050 
14074451512203102000 13503000000803000101010102003355533120000000001030 


5=" 月 结余 :200 元 以 上 "; 


图 9.17 社区 调查 数据 


(2) 数据 集 : 运行 图 9. 17 中 的 程序 与 数据 生成 图 9. 18 所 示 的 Work. sq4 数据 集 。 


Y. SAS - [Analyst: (new project)] 


如 New Project 

E) ly Sa3 Analysis 
| Lgs 

E è Sa4 Analysis 
E sq 


i2828g9mg599g5ses9 


SAS - [Analyst: (ne: Zh 北京 大 学 - Microsoft 


9.18 数据 集中 的 oi 等 变 


(3) 
针 移 到 图 9. 19 所 示 的 "分析 家 ”(Analyst) 


τι sas - [程序 编辑 器 - 程序 9.3.sas] 
[κ] 文件 (F) 编辑 (E) 查看 (v) IAM 运行 (R) Εως 


07332 
2005241 
10215 
110696412022 
110705: 
1107 


命令 上 。 


EIN 帮助 (H) 


πο. 


相关 分 析 


选择 SAS 主 菜单 中 的 “解决 方案 ”(Solutions) 一 分析”(Analysis) 


开发 和 编程 (D) 
报表 (R) 
ΒΗΜΑ) 
A55ISTCD 
Eco 
EIS/OLAP 应 用 程序 生成 器 (E) 
v10d=" 目 来 水 ” 


120001000001000 
3020001000102000 
33110004000000000 


0002000021060 
0000000001050 
120001000011000 


00012 2702400 100000000000000102003 
2101140030000000000000000000000033344: 
00002000000003304342 
(00000000000001111111102000001000000 
:3155220330110013002000001102000000000 10203; 
16230742210113502001000005040000000 10000115; 


2253432 13000200003 1000 


3333320000000041060 
i 


9.19 Analyst 的 菜单 位 置 


(4) YE f£" ^r Br E" CAnalysO — " XC f/E" CFile) "4E SAS 名 称 打 开 ”(Open By SAS 


Name) Work 命令 和 按钮 ,进入 图 9. 20. 


30 可 视 分 析 (四 


企业 数据 挖掘 (日 
地 理 信息 系统 (9) 
向 导 式 数据 分 析 (G) 
交互 式 数据 分 析 (D 
投资 分 析 (N) 
市 场 研究 (MW) 

项 目 管理 (P) 

质量 改善 (Q) 

排队 模拟 (U) 

时 间 序列 预测 系统 (E) 
时 间 序 列 查看 器 (TD) 


(5) 选择 文件 名 sq4 后 单 击 OK 按钮 ,展示 Work. sq4 数据 集 的 内 容 , 见 图 9. 18 


(6) 选择 图 9. 18 中 的 “统计 ”(Statistics) 一 “描述 性 统计 ”(Descriptives) 命 令 , 进 入 
edc( 文 化 程度 ) 和 oi( 消 费 比 率 ) 两 个 变量 , 见 图 9. 21 


图 9. 21 并 设置 变量 : 


Opt ions 
Titles 


Plots 


Save Opt ions| 


Help 


Save Data 


A 北京 大 学 - 


设置 edc( 文 化 程度 ) 和 οἱ 
(消费 比率 ) 两 个 变 


图 9.20 Work. sq2 数据 集 文 件 9. 21 
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(7) 单 击 Options 按钮 选择 Kendall's tau-b 系数 , 见 图 9.22。 


Correlat ion types 
κ... 


国 P-values 
回 Descript ive statistics 


日 boeffding's D Correlation format 
Rectangular table 
OHishest to lowest. 


Pearson options. 
口 covaria Exclude missing values 一 —— 


nces 
EICSSCP matrix @Pairvise 
口 SSCP matrix OListwise 


58 北京 大 学 - Microsoft 


图 9.22 选择 Kendall's tau-b 系数 


(8) 单 击 两 次 OK 按钮 ,输出 Kendall's tau-b 系数 (如 图 9. 23). 


Y. SAS - [Correlations of sq4] 
BXD WKO 窗口 (W) WHD 
NEM NE Nr 


简单 统计 量 
均值 ERE 中 位 数 晤 小 值 RAA 
0.78417 0.49520 0.71429 0.35714 4.00000 
3.40000 1.30931 3.50000 1.00000 5.00000 
Kogda! Tau b PERRE, Nz 50 
ER » Prob > Irl 
oi edc 


1.00000 0.02978 
0.7827 


0.02978. 1.00000. 
8.7827 


ions of D 北京 大 学 - Microsoft 


9.23 输出 Kendall's tau-b 系数 


953 肯 氏 相关 系数 ro 结果 分 析 


如 图 9. 23 所 示 : Prob > |r| 概 率 值 P—0. 7827 很 不 显著 ,所 以 没有 理由 拒绝 相关 系 
数 是 0 的 假设 。 而 且 样 本 的 相关 系数 只 有 ο. 02978 ,接近 于 0. 说明 从 此 样本 看 ,edc( 文 化 
程度 ) 和 oi( 消 费 比 率 ) 两 个 变量 之 间 几 乎 不 存在 肯 氏 相关 。 


96 斯 皮尔 受 等 级 相关 


如 果 两 个 变量 的 数值 存在 着 有 序 的 等 级 或 水 平 (Level) .例如 :丈夫 的 月 收入 与 妻子 
月 收入 分 别 可 以 划分 为 : 1(2000 元 以 下 ).2(2001 一 3000 元 ) ,3(3001 一 4000 元 ),4(4001 


Or 相关 分 析 
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以 上 ) 一 共 4 组 。 则 认为 丈夫 与 妻子 的 月 收入 分 为 4 个 等 级 。 在 这 种 情形 下 ,可 以 采用 
斯 皮尔 曼 的 等 级 相关 公式 ,计算 该 对 变量 是 否 相 关 , 相 关系 数 有 多 大 。 当 然 , 也 可 以 按 第 
8 章 介 绍 的 采用 PROC RANK 过 程 分 析 。 


961 斯 皮尔 曼 等 级 相关 系数 的 计算 公式 


假设 丈夫 的 变量 值 为 工 ,丈夫 的 变量 值 平 均 为 X 。 妻 子 的 变量 值 为 ,妻子 的 变量 值 
平均 为 Y, 那 么 ,利用 斯 皮尔 曼 等 级 相关 公式 则 可 求 出 相关 系数 R: 


ΣΑ, - ΧΡΩ͂, - Ὁ) 
R (9. 3) 


ΚΣ... -Y».»1q,-Yx 

公式 (9.3) 中 ,R 为 斯 皮尔 曼 等 级 相关 系数 。 

Xii 第 i 个 X 值 的 等 级 。 

X: X 的 均值 。 

Yi: 第 i 个 Y 值 的 等 级 。 

Y: Y 的 均值 。 

式 (9.3) 中 ,分 子 为 双 测 量 的 协 方差 ,分 母 为 各 变量 标准 偏差 的 乘积 。 

R 的 取 值 范围 为 : — RAI 

可 见 , 相 关系 数 与 协 方差 一 样 ,都 是 测量 变量 间 的 线性 相关 的 程度 ;所 不 同 的 是 , 相 
关系 数 是 标准 化 了 的 协 方差 。 


962 用 “分 析 家 ”对 话 框 测量 等 级 相关 


下 面 程序 9.4 中 的 变量 及 其 数据 是 北京 大 学 郭 崇 德 教授 1991 年 对 某 些 大 中 城市 社 
区 服务 研究 中 的 《退休 职工 调查 》 数 据 。 笔 者 从 中 随机 抽取 66 个 个 案 进 行 分 析 , 其 中 的 
职业 是 从 工人 至 技术 人 员 的 等 级 排序 的 。 

计算 每 位 职工 退休 前 的 职业 与 退休 后 的 职业 之 间 的 斯 皮尔 曼 等 级 相关 系数 。 

进入 "分 析 家 ”(Analyst) 的 操作 步骤 如 下 : 

(1) 运行 程序 9.4, 产 生 SAS 数据 集 Work. old4 。 

程序 9. 4: 


DATA old4; 

INEUT idl 1- 2 caseld 3- 5 n 6 sex 7 age 8- 9 edc 10 

ocul 11 ocu2 12 sall 13- 15 sal2 16- 18 (vl- v5) (5* 1.); 

TTE "Arp DX Hl 5$ DESEE VAL e PRG A Wr — 5; 
/* "对 4 区 23 个 居委会 的 抽样 调查 '* / 

IREET τ-- "称谓 ' sex- ' 老 人 性 别 ' age- "E A AE o n 

edc- ' 受 教育 年 限 ' ocul= ' 退 休 前 职业 ' ccu2- "退休 后 职业 ' 

sall- "退休 前 月 收入 :元 ' 

sal2- "退休 后 月 收入 :元 ' vi ' 医 疗 费 报销 与 否 ' v2- ' 生 活 能 力 ' 

v3- ' 干 家 务 事 ' v4 与 小 辈 关 系 ' v5= ' 就 医 困 难 情 况 '; 

IF sex- 0|age= 0| edc- 0 THEN delete; 
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CARDS; 

11001117742007815123113 
11001717942099172222215 
11002526952007809911321 
11002617052015017011321 
11003517452011018022222 
11003626752011516812223 
11004226121009007031311 
11022616326618015011413 
11022525526612009721410 
11023227744613010512213 
11023427236600000031312 
11028616332020000011210 
11029518031120020011130 
11029627011118018021430 
11030516742016019011221 
11031515642023000021220 
11030625321010509011320 
11032116131019017011222 
11038228431000011012414 
11039316452018000011213 
11039426042016000012213 
11041525633605611011310 
11041616032610018011210 
11042527946600000012222 
11043517332615010011310 
11044526216600000021410 
11044616816600000021210 
11051626202000000031311 
11082516235509010021210 
12002616452619522011211 
12003525821204006030010 
12004517011608506013113 
12004626121206405011411 
12005617152636036013110 
12008428326600000031210 
12009116122212531131121 
12009225811606007831322 
12010525€21613012011411 
12011425521600000011320 
12012516221630017011311 
12012626326600000021113 
12018226811610008021314 
12020626326015020011310 


12021116056600000011322 
12021225846600000021325 
12022616552612000011310 
12022526332609900011310 
12023117311600005013110 
12023226611600005011410 
12024616355600020011212 
12025316542600000011410 
12025426042600000011410 
12026116126620025011322 
12032527532606014012213 
12033117326600017011320 
12033227016600000032220 
12034516936600021511210 
12034617056600005032413 
12035117321610000000000 
12036226555620015011310 
12037616242625025011310 
12037525842618613811310 
12038229216600000031210 
12038626716600000031310 
12045116921110008011210 
12045226811100000021410 
12046229000000000032110 
12047517721609728312204 


P 


(2) 选择 图 9. 13 中 的 “统计 ”一 “描述 性 统计 ”>“ 相 关 ” 命 令 , 进 入 图 9. 24 并 设置 变量 。 


Eio E E A E 


Josan 


= Correlations: Old4 


čorrelaie 


ocul 
ocu2 


Save Üptions 
Help. 


Options Plots 


Titles | Variables 


Save Data 


9.24 设置 ocul 和 ocu2 变量 
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(3) 单 击 Options 按钮 ,进入 图 9. 25 并 选择 Spearman 系数 。 


Print 


国 P-values 
回 Descript ive statistics 


ElHoeffding's D Correlation format — — — 
S Rectangular table 
OHiehest to lowest. 


Pearson options — — —— 
Exclude missing values 


@®Pairwise 
OListwise 


图 9.25 选择 Spearman 系数 
(4) 单 击 两 次 OK 按钮 ,输出 图 9. 26 所 示 的 结果 。 


Y: SAS - [Correlations of Old4] 
XO 编辑 (E) 窗口 (W) 帮助 (中 -3x 


~ -J| D= maa t aeDA] Oe 


CORR 过 程 


简单 统计 量 
均值 标准 偏差 中 位 数 最 小 值 最 大 值 mÆ 


2.96970 2.06785 2.00000 1.00000 5.00000 Mp 
4.04545 2.69719 6.00000 0 6.00000 BEER 


Spearman 相关 系数 ，N = 66 


当 H0: Rho=0 时 ，Prob > [rl 
ocul ocu? 


ocul 1.00000 0.33023 
退休 前 职业 0.0068 


ET 0.33023 1.00000 
MUR EE 0.0068 


ΕΝ cz | 7 4/8 


9.26 Spearman 相关 系数 


963 anen 相关 系数 的 分 析 


如 图 9.26 所 示 : 

因为 样本 的 相关 系数 为 0. 33023. ΠΠ H.“ H0: Rho=0 时 ,Prob 二 |rl” 的 概率 值 
0. 0068—0. 05 ,非常 显著 ,所 以 样本 中 每 位 职工 退休 前 的 职业 ,与 退休 后 的 职业 之 间 呈 现 
较 强 的 斯 皮尔 曼 等 级 相关 。 
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Phi D RAM V 系数 用 于 两 个 变量 都 是 “ 标 称 一 标 称 ”的 相关 测量 ,而 V 系数 是 克 
莱 姆 (Cramer) 的 V 系数 。 根 据 数 学 公式 推导 .V 系数 比 Phi 系数 优化 。 
程序 9.4 中 的 sex 与 ede 两 个 变量 是 “ 标 称 一 次 序 ” 型 变量 ,因为 没有 它们 的 相关 测 
量 , 只 好 把 这 一 对 变量 降 为 “ 标 称 一 标 称 ” 型 变量 进行 相关 测量 ,测量 的 系数 用 Phi 系数 
JI V 系数 ,可 用 “PROC FREQ; TABLE SEX * EDC/CHISQ;” 过 程 命令 获得 输出 ,请 参 
阅 图 9. 27( 但 无 法 用 对 话 框 命令 实现 之 )。 
Y sas - [输出 - 《无 标题 〉》] 


EA 文件 (E) 编辑 (E) xem) 工具 (DD 解决 方案 (5) 窗口 (Ww) 帮助 (中 
C | 4 
FREQ 1 
sex * edc 表 
sex( 老 人 性 别 ) edc( 受 教育 年 限 ) 


8 88 
8.08 | 13.64 | 50.00 
18.18 | 27.27 
50.00 | 75.00 

+ 


3 33 
4.55 | 50.00 


7.58 | 8.0 
30.30 | 15:15 | 18:18 N 
55.56 | 41.67 | 50.00 | 25.00 


18 12 12 12 86. 
27.27 18.18 18.18 18.18 — 100.00 
sex * edc 囊 的 统计 量 
er 
Mante! el 卡 方 
Phi 
列 联 系数 
Cramer BO v 
样本 大 小 = 66 


ΕἸ 日 志 -无 标题 ..，| 因 程 序 编辑 器 - 程 … [παρ μι - 《无 标 .… 


9.27 “ 标 称 一 标 称 ” 型 变量 可 选用 的 相关 系数 


98 Qonbach 的 Apha 系 数 与 eanan ΞΕ 5x X E 


图 9. 28 中 的 Cronbach 的 Alpha(a) 系 数 给 出 了 一 个 可 靠 性 系数 的 下 限 , 该 系数 的 下 
限 等 于 期 望 值 与 实际 值 之 间 相 关系 数 的 平方 。 

用 程序 9.4 中 的 数据 计算 出 退休 后 职业 ocu2 与 退休 前 职业 ocul 的 Cronbach {1 a 
理论 值 如 图 9. 28 所 示 为 0.637635, 这 比 Spearman 相关 系数 0. 33023 K. 

注意 : Hoeffding 的 相关 系数 D 可 用 以 测量 2 个 变量 具有 等 级 水 平时 的 相关 程度 。 
它 类 似 于 肯 氏 (Kendall) 等 级 相关 系数 t,。 用 法 可 参阅 9.4 节 。 
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Y sas [Correlations of Ο142] 


ALPO RBO SOW MHW 
v 


简单 统计 量 
变量 N 均值 标准 偏差 总 和 最 小 值 最 大 值 πᾶς 
ocul 142 2.80563 2.05236 370.00000 0 6.00000 ”退休 前 职业 
ocu? 142 3.45070 2.81480 490.00000 0 6.00000 退休 后 职业 


Cronbach 的 Alpha 系数 


变量 Alpha 系数 
Raw 0.816508 
Standardized 0.637635 


带 已 删除 变量 的 Cronbach 的 Alpha 系数 
原始 变量 标准 化 变量 


ge 
ocul 
ocu? 0.468035 0.468035 


u μὴ 


图 9.28 Cronbach 的 Alpha 系数 


99 JH PROC OR ZZ E Zim E τ SL ΠΗ Ξε Ξε HC 


本 节 介 绍 编程 法 ,编程 法 是 用 SAS 命令 编制 程序 。 编 程 法 往往 比 对 话 框 法 功能 齐全 。 
PROC CORR 过 程 的 主要 功能 有 计算 皮尔 逊 (Pearson) Hir Ez 4R Œ (Spearman) i IC 
(Kendall) 以 及 Hoeffding 等 相关 统计 量 。 


1. 尚未 加 权 的 情况 


首先 介绍 没有 WEIGHT 语句 时 的 情形 , 见 程序 9. 5 及 其 输出 结果 的 图 9. 29。 
程序 9. 5 


DATA old4; 

INEUT idl 1- 2 caseld 3- 5 n 6 sex 7 age 8- 9 edc 10 

ocul 11 oau2 12 5811 13-15 sal2 16- 18 (vl- v5) (5* 1.); 

TTE ' 大 中 城市 社区 服务 研究 (居民 调查 ) 数 据 分 析 之 二 '; 

/* "对 4 区 23 个 居委会 的 抽样 调查 '* / 

IAPEL n= "称谓 ' sex- ' 老 人 性 别 ' age- UE A AE o t 

edc- ' 受 教育 年 限 ' ccul= ' 退 休 前 职业 ' ccu2- "退休 后 职业 ' 
sall- "退休 前 月 收入 :元 ' 

sal2- "退休 后 月 收入 :元 ' vi ' 医 疗 费 报销 与 否 ' v2- ' 生 活 能 力 ' 
v3- ' 干 家务 事 ' va- 与 小 辈 关系 ' v5= '" 就 医 困 难 情 况 '; 

IF sex- 0|age- 0| edc- 0 THEN delete; 

CARDS; 


11001117742007815123113 
11001717942099172222215 
11002526952007809911321 
11002617052015017011321 
11003517452011018022222 
11003626752011516812223 
11004226121009007031311 
11022616326618015011413 
11022525526612009721410 
11023227744613010512213 
11023427236600000031312 
11028616332020000011210 
11029518031120020011130 
11029627011118018021430 
11030516742016019011221 
11031515642023000021220 
11030625321010509011320 
11032116131019017011222 
11038228431000011012414 
11039316452018000011213 
11039426042016000012213 
11041525633605611011310 
11041616032610018011210 
11042527946600000012222 
11043517332615010011310 
11044526216600000021410 
11044616816600000021210 
11051626202000000031311 
11082516235509010021210 
12002616452619522011211 
12003525821204006030010 
12004517011608506013113 
12004626121206405011411 
12005617152636036013110 
12008428326600000031210 
12009116122212531131121 
12009225811606007831322 
12010525621613012011411 
12011425521600000011320 
12012516221630017011311 
12012626326600000021113 
12018226811610008021314 
12020626326015020011310 
12021116056600000011322 
12021225846600000021325 
12022616552612000011310 
12022526332609900011310 
12023117311600005013110 
12023226611600005011410 
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12024616355600020011212 
12025316542600000011410 
12025426042600000011410 
12026116126620025011322 
12032527532606014012213 
12033117326600017011320 
12033227016600000032220 
12034516936600021511210 
12034617056600005032413 
12035117321610000000000 
12036226555620015011310 
12037616242625025011310 
12037525842618613811310 
12038229216600000031210 
12038626716600000031310 
12045116921110008011210 
12045226811100000021410 
12046229000000000032110 
12047517721609728312204 


运行 程序 9.5 后 产生 图 9. 29 所 示 的 结果 。 


TSAS - [输出 


(无 标题 ) PROC CORR ΙΕ΄ 


B rD RSD ”查看 如 IED #AJRO SOW ”帮助 如 


[- m [x| 


΄ “| Θιὰ adm 2agsoe 


dobMpte ERURPER, UE HUI dE SIRO ELT 17:085 Friday, Decewher 5, 
cons ἀπε 
3 变量 : sell sal2 ede 
mamita 
N 均值 tie 总 和 EZ RAXA 
se 10f. 08030 139.83781 7084 o 981. ο0ο0 
56 107. 22727 115. 61217 TOi 9 722. 00000. iB BEA iu 
56 BE S937 192.00000 1. 00000 tocco SANER 


pren AEM, N= Sp 
6H. Prob > [κι 


1.00000 0.21280 

5. 0866 
τ. 21269 1. 00000 
EE 


9.29 常用 的 皮尔 逊 积 差 相 关系 数 
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从 图 9. 29 可 以 看 出 ,未 加 权 的 统计 结果 反映 了 数据 的 本 来 面目 ,观察 值 没 有 被 
加 权 。 


2. 加 权 后 的 情况 


现在 观察 有 WEIGHT 语句 时 的 情形 , 即 程序 9. 6 及 其 输出 图 9. 30 所 示 的 结果 。 
程序 9. 6: 在 程序 9. 5 的 最 后 增加 weight sex 语句 。 


DATA old4; 

INEUT 131 1- 2 caseld 3- 5 n 6 sex 7 age 8- 9 edc 10 

ocul 11 ocu2 12 sall 13- 15 5812 16-18 (vi- v5) (5* 1.); 

TTE “' 大 中 城市 社区 服务 研究 4 居民 调查 》 数 据 分 析 之 二 

/* "对 4 区 13 个 居委会 的 抽样 调查 '* / 

IABEL r= ' 称 谓 ' sex- ' 老 人 性 别 ' age- ' 老 人 年 龄 ' 
edc= ' 受 教育 年 限 ' ocul= ' 退 休 前 职业 ' oca2- ' 退 体 后 职业 ' 
sall- ' 退 休 前 月 收入 :元 ' 
sal2- "退休 后 月 收入 :元 ' νι- ' 医 疗 费 报销 与 否 ' νο- ' 生 活 能 力 ' 
v3- ' 干 家 务 事 ' va- "与 小 辈 关 系 ' v5= ' 就 医 困 难 情况 '; 

IF sex- 0|age= 0| edc- 0 THEN delete; 

CARDS; 

11001117742007815123113 

11001717942099172222215 

11002526952007809911321 

11002617052015017011321 

11003517452011018022222 

11003626752011516812223 

11004226121009007031311 

11022616326618015011413 

11022525526612009721410 

11023227744613010512213 

11023427236600000031312 

11028616332020000011210 

11029518031120020011130 

11029627011118018021430 

11030516742016019011221 

11031515642023000021220 

11030625321010509011320 

11032116131019017011222 

11038228431000011012414 

11039316452018000011213 

11039426042016000012213 

11041525633605611011310 

11041616032610018011210 

11042527946600000012222 

11043517332615010011310 


202 
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11044526216600000021410 
11044616816600000021210 
11051626202000000031311 
11082516235509010021210 
12002616452619522011211 
12003525821204006030010 
12004517011608506013113 
12004626121206405011411 
12005617152636036013110 
12008428326600000031210 
12009116122212531131121 
12009225811606007831322 
12010525621613012011411 
12011425521600000011320 
12012516221630017011311 
12012626326600000021113 
12018226811610008021314 
12020626326015020011310 
12021116056600000011322 
12021225846600000021325 
12022616552612000011310 
12022526332609900011310 
12023117311600005013110 
12023226611600005011410 
12024616355600020011212 
12025316542600000011410 
12025426042600000011410 
12026116126620025011322 
12032527532606014012213 
12033117326600017011320 
12033227016600000032220 
12034516936600021511210 
12034617056600005032413 
12035117321610000000000 
12036226555620015011310 
12037616242625025011310 
12037525842618613811310 
12038229216600000031210 
12038626716600000031310 
12045116921110008011210 
12045226811100000021410 
12046229000000000032110 
12047517721609728312204 


PROC CORR; 
VAR sall sal2 edc; 


WEIGHT sex; /* 比 程 序 9.5 增加 weight sex 语 句 κ 
ΕΟΝ; 
运行 程序 9.6 后 产生 图 9. 30 所 示 的 结果 。 


Y sas - [输出 - 《无 标题 〉] 


EB 文件 (5) 编辑 (E) EWV IAV 和 解决 方案 (5) SOW MHW 
νι ^  sdjiDsHeéeu:&-m-—-5»yg*:oe 


4 
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简单 统计 量 
标准 偏差 总 和 
149.46777 93187 


130.30373 8172 
1.68756 275.00000 


92.79798 
82.84846 
2.77778 


paa e bey ca 
3$ Wo 
EI 
5411 1.00000 
p 0.77230 
DELE: «0001 


ESL. 


0.27292 
0.0266 


να. 5t 


sel2 


0.77290 
0001 


1.00000 


0.23128 
0.0818 


最 小 值 最 大 值 
0 991.00000 
Ὁ. 722.00000 
1.00000 5:00000 


edc 


0.27292 
0.0268 


0.23128 
0.0618 


1.00000 


标签 


ο, 


日 志 - 《无 标题 7 


因 程 序 编辑 器 - 程 … Bss- 《无 标 .… 


E 9.30 比 程序 9.5 增加 Weight 语句 后 的 输出 示意 图 


3. 对 图 9.30 统计 结果 的 分 析 


比较 图 9. 30 与 图 9. 29 可 以 看 出 ,除了 N 栏 . 最 小 值 栏 . 最 大 值 栏 的 数值 保持 不 变 


外 ,其 他 各 栏 相 应 的 值 均 被 加 权 了 。 


所 以 说 ,加 权 与 不 加 权 : 结 果 大 不 一 样 。 如 果 男 女人 数 相差 不 太 悬 丈 ,或 其 他 变量 的 


各 个 水 平 值 相差 不 大 时 ,未 必需 要 加 权 。 


程序 9.7: 在 程序 9. 5 最 后 


DATA sq; 
ΤΝΕΤΙΕ; 'D: NSASDATANxsqll- 12.dat'; 


4. 在 程序 9.5 中 增加 FREQ sex 语句 时 的 前 后 对 比 


面 增加 FREQ sex 语句 。 


INEUT idl 1- 2 caseid 3- 5 n 6 sex 7 age 8- 9 edc 10 ocul 11 ocu2 12 


sall 13- 15 sal2 16-18 (vl- v5) (5* 1.); 
TITLE 
PROC CORR; 

VAR sall sal2 edc; 


FREQ sex; /* 比 程 序 9.5 增 加 ΕΕΕΟ sex 语 句 * / 


"大 中 城市 社区 服务 研究 《居民 调查 》 数 据 分 析 之 二 


δικα: d 


(1) 运行 程序 9. 7 后 产生 图 9. 31 所 示 的 结果 。 


© sas — Db - “无 标题 ) ] 

Εἢ πήγα) REO SEV IAV 解决 方案 GE) SOW 帮助 0 

|» zl|D | δ! Ham ICEY] 
APREL SNA ERNE SEIN 


21 
17:50 Wednesday, February 4, 2004 
CORR 过 程 


3 H sall 5612 edc 


简单 统计 量 
均值 标准 偏差 总 和 ~ 最 大 值 
92.89238 104.94463 20715 391.00000 
97.74439 95.49776 21797 722.00000 
“56851 1.40250 573.00000 5.00000 
fes rsen 相关 系数 ，N = 228 
xS" MD: Roco i» Prob > irl 
sall sal2 edc 
1.00000 0.76336 0.42558 
«.0001 «.0001 
0.76336 1.00000 0.39105 
«.0001 «.0001 


0.42558 0.39105 1.00000 
<.0001 <.0001 


EE] 日 志 - (EM) 图 程序 12 相 关 7. SAS . Bst- Ξ (无 标题 ? 


.. [C:\Documents and Sett | 


Æ 9.31 比 程序 9. 5 增加 Freq 语句 后 的 输出 结果 


(2) 分 析 比 较 : 对 比 图 9. 31 与 图 9. 29 可 以 看 到 ,由 于 增加 了 FREQ sex 语句 ,观察 
ΙΒ N 明显 地 按 sex 值 增多 到 223( 人 )。 因 此 图 9. 31 比 图 9. 29 的 总 和 “SUM” 相 应 地 增 
加 了 。 

再 比较 图 9. 31 与 图 9. 30 可 以 看 出 ,除了 N 栏 的 值 和 *Std Dev 栏 ? 的 相应 值 改变 外 ， 
图 9. 31 其 余 各 栏 的 值 与 图 9. 30 的 一 样 。 

建议 : 一 般 情况 下 应 采用 程序 9. 5。 即 慎 用 WEIGHT 语句 和 FREQ 语句 。 才 能 保 
持原 来 的 数据 特色 。 

5. 分 组 计算 双 变 量 的 相关 程度 

下 面 用 “BY 变量 表 ” 语 句 分 组 计算 双 变 量 的 相关 程度 。BY 后 面 可 以 指定 一 个 以 上 
的 分 组 变量 。 

程序 9. 8: 在 程序 9.5 最 后 面 增 加 “PROC SORT;BY idl;” 语 句 。 

PROC SCRT;BY idl; 


PROC CORR; 
VAR sall sal2 edc; 


运行 程序 9. 8 后 产生 图 9. 32 和 图 9. 33 所 示 的 结果 。 
程序 9. 8 说 明 如 下 : 
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Y sas - [输出 - 《无 标题 》 PROC CORR 正在 运行 ] 
BXD RRO SEV IAD 解决 方案 (3 SOW ΑΡΧΗ) 


sal? 


简单 统计 量 
均值 Ld 总 和 
144.39286 179.49050 4043 391.00000 


113:35714 Β 3942 0 722.00000 
3.25000 κ 31.00000 5.00000 


sal? edc 


sali à 0.94963 0. 19186 
«.0001 0.3280 


p 0,84963 1.00000 0,17355 
iE Bae ooo [ED 


F^ 0.19186 0.17355 1.00000 
育 年 限 0.3280 9.3771 


B 北京 大 学 - Microsoft 


T SAs - [输出 - (EHEM) PROC CORR 正在 运行 ] 
加 πμ 编辑 (E) ππ IAD 解决 方案 (3) SOW 帮助 (H) 


区 zljDemWenu:sucw"-nbpjygRRg-*0€ 


== idl=12 e 


CORR 过 程 
3 38: sall sal? οὐς 


简单 统计 量 
E Ll en Rasa 最 大 值 σα 
79.50000 94.91212 391 o 380.00000 


98.28947 105.05492 35 0 380.00000 582 入 :元 
2.85789 1.45707 101.00000 1.00000 5.00000 Li 


Pearson 相关 系数 ，N = 98 
当 H0: Rho=0 BÍ» Prob > |rl 


sall sal edc 


sall 1.00000 0.66800. 0.27920 
2.0001 0.0908 


2 0.66800. 1.00000 0.22879 
ie ne 2.0001 ο δη 


EA 0.27820 0.22878. 1.00000 
育 年 限 0.0908 0.1671 


3 北京 大 学 


9.33 比 程序 9.5 增加 “BY idl( 地 区 )” 语 句 后 的 输出 ( 续 ) 


程序 9. 8 因为 比 程序 9. 5 增加 了 一 条 BY 语句 ,所 以 比 图 9. 29 增加 了 一 个 子 图 ( 见 
图 9. 33) , 即 图 9. 29 是 不 分 地 区 画 出 的 sall 、sal2 和 ede 三 个 变量 相关 分 析 的 总 图 形 。 

而 且 , 图 9. 32 和 图 9. 33 则 是 按照 地 区 为 东城 区 和 西城 区 时 .分别 画 出 三 个 变量 的 
相关 分 析 子 图 。 


6. 对 图 9. 33 的 相关 分 析 


(1) sal2( 退 休 金 ) 与 sall( 原 工资 ) 之 间 的 相关 系数 为 0.6680, 且 P 值 0.0001 二 a 理 
论 值 0.05, 所 以 这 一 对 变量 呈现 强 相 关 。 
(2) sal2( 退 休 人 金 ) 与 edc( 文 化 程度 ) 之 间 的 相关 系数 为 0.22879, 且 书 值 0.1671 二 ua 
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理论 值 0.05., 所 以 这 一 对 变量 呈现 弱 相 关 但 不 可 靠 。 
说 明 : 对 图 9. 32 的 分 析 以 此 类 推 。 


5 sm 9 


. 变量 有 哪 4 种 类 型 ? 

. “比例 一 比例 ”( 定 比 一 定 比 ) 型 的 变量 要 用 哪 一 种 相关 测量 ? 

“二 分 变量 一 区 间 以 上 变量 ”要 用 哪 一 种 相关 测量 ? 

“次 序 一 次 序 ”( 定 序 一 定 序 ) 型 的 等 级 变量 要 用 哪 一 种 相关 测量 ? 
“次 序 一 次 序 ” 型 的 等 级 变量 还 可 以 用 哪 一 种 相关 测量 ? 

“次 序 一 比率 ”( 定 序 一 定 比 ) 型 的 数据 要 用 哪 一 种 相关 测量 ? 

.“ 标 称 一 标 称 ”( 定 类 一 定 类 ) 型 的 变量 要 用 哪 一 种 相关 测量 ? 

. 哪 一 个 相关 系数 的 值 要 乘 以 30 倍 ? 

. 试 写 出 计算 身高 (Height) 与 体重 (Weight) 的 Spearman 相关 系数 。 
10. 试 分 析 图 9.34 的 结果 。 


Ὁ 0o - σι σι AUNA 


The CORR Procedure 


Variables: sall 5812 edc 
Freq Variable: sex 


Simple Statistics 


Variable Ν Mean Std Dev Sum Minimum Maximum 
sall 1221 81. 84521 98. 10341 99933 0 991, 00000 
sal2 1221 96. 04095 91.24199 117266 0 722. 00000 
ede 1221 2. 33825 1. 34204 2855 0 5. 00000 


Pearson, N = 1221 
Prob > |r| under H0: Rho-0 


sall sal2 edc 

sall 1. 00000 0. 67950 0.41820 

<. 0001 <. 0001 

sal? 0. 67950 1. 00000 0. 43077 

<. 0001 <. 0001 

edc 0. 41820 0.43077 1. 00000 
«. 0001 «. 0001 


9.34 皮尔 了 还 积 差 相 关 


第 10 TÉ ehapter.].() πμ ---- 
用 GLM 过 程 进 行 回归 分 析 


相关 分 析 是 按 相关 系数 的 大 小 来 判定 两 个 变量 Xi 与 X. 之 间 相 关 程 度 的 强 弱 ,以 及 
相关 趋向 的 异同 ,但 它 不 能 用 以 表明 Xi 与 Xs 两 个 变量 的 因果 关系 . 即 无 法 测定 两 个 变 
量 的 函数 关系 ,更 无 法 确定 两 个 变量 函数 关系 的 方程 式 。 

然而 ,回归 分 析 是 通过 自 变量 来 预测 另 一 个 随机 而 且 是 对 应 的 因 变 量 , 并 采用 方程 
式 ( 例 如 ,Y= 二 Bo 十 BiXi 十 … 十 BkX 十 EE) 来 表示 因 变 量 与 自 变 量 之 间 的 因果 关系 。 

在 SAS 统计 分 析 软 件 中 ,设计 了 回归 分 析 所 用 的 两 种 应 用 过 程 ,其 一 是 GLM, C EÈ 
General Linear Model 的 英文 缩写 ,可 应 用 于 线性 和 非 线 性 回归 模型 的 分 析 ; 其 二 是 
Regression, 只 能 应 用 于 线性 回归 模型 的 分 析 。 

GLM 过 程 处 理 、 分 析 数 据 的 方法 为 广义 线性 模型 法 , 它 不 仅 可 处 理 次 序 ( 定 序 ) 变 量 
的 数据 ,而 且 可 分 析 非 次 序 变量 的 数据 ,例如 : 

1. 简单 回归 (Simple Regression); 

2. 多 元 ( 自 变量 ) 回 归 (Multiple Regression); 

3. 方差 分 析 (ANOVA): 尤其 适用 于 非 均衡 、. 非 对 称 的 数据 的 方差 分 析 
(Unbalanced data); 

4. 加 权 回 归 (Weighted Regression) : 


5. 偏 相 关 (Partial Correlation); 

6. 多 元 方差 分 析 (MANOVA); 

7. 多 项 式 回 归 (Polynomial Regression) ,或 称 高 次 回归 ; 
8. 协 方差 分 析 。 


GLM 的 工作 原理 ,是 使 用 最 小 平方 法 (Least square method 即 最 小 二 乘法 ) 去 研讨 
一 个 线性 模型 。 
目前 没有 GLM 的 对 话 框 ,只 能 采用 语句 进行 统计 分 析 。 


101 最 小 平方 法 的 原理 


在 实际 应 用 中 经 常 要 从 若干 个 自 变 量 中 预测 一 个 因 变 量 。 例 如 ,根据 某 个 学 生 高 三 
各 门 的 统考 成 绩 ,来 预测 高 考 成 绩 以 便 填 报 高 考 志 愿 时 参考 。 最 小 平方 法 (也 称 最 小 二 
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乘法 ) 就 是 通过 估算 一 组 数据 的 线性 关系 ,进而 说 明 如 何 利 用 此 法 :来 预测 线性 回归 模型 


中 的 参数 。 并 确定 出 最 佳 的 回归 方程 式 一 一 模型 。 


假设 线性 回归 模型 为 : 
Yi = Bo +B: Xı +4 1-ΒΚΧ, +e: 
Yi 
(4. Y) 

Jk 

ΕΞ 

回 

[η 

ο Y 

图 10.1 回归 分 解 图 
图 10. 1 η. 
Y,—cY, = q,—YO + (Y,—Yo 


总 平方 和 ΚΕΠ. 回归 平方 和 
配置 最 佳 线性 回归 模型 应 具备 以 下 两 个 条 件 : 


(OD >)(Y, — YO 为 最 小 值 ; 
(2 Σ),-- = 0。 
如 果 所 配置 的 线性 方程 具备 上 述 两 个 条 件 . 则 采用 最 小 二 乘法 。 


1011 方差 分 析 


C10. 1) 


(10. 2) 


将 图 10. 1 中 的 总 和 ,以 及 各 个 分 量 分 别 求 平方 和 之 后 ,可 用 公式 (10. 3) 表 示 三 者 之 


间 的 关系 : 
P= =D- 4 ΣΟ, -Ύρ᾽ 


SST SSE SSR 


(10. 8) 


3X C10. 3) 中 ,SST 为 总 平方 和 (Total Sum of Squares). SSR 为 回归 平方 和 
(Regression Sum of Squares) ,SSE 为 误差 平方 和 (Error Sum of Squares), 
从 “总 平方 和 SST” 以 及 SSR.SSE 中 ,可 进一步 计算 出 方差 的 估计 量 以 及 非 线 性 方 


差分 析 的 检验 值 一 F 值 ,请 参阅 表 10. 1 。 
表 10.1 回归 方差 分 析 表 


方差 来 源 平方 和 SS 自由 度 df 方差 估计 量 MS F 值 
回归 SSR 1 MSR=SSR/1 
误差 SSE n—2 MSE= SSE/(—2) ΕΞ MSR/MSE 
总 和 SST n—1 


πω ο ο 


说 明 : 

。 自由 度 是 指 自 变量 的 个 数 。 统 计量 中 每 含有 一 个 条 件 时 , 则 失去 一 个 自由 度 。 

。SSR 只 有 一 个 自由 度 ,虽然 简单 直线 回归 方程 式 有 两 项 ,但 因 Σ) (预测 的 Y; — Yo 
必须 为 0, 故 只 有 一 个 自由 度 。 

。 SSE 因为 要 求 > (实际 的 Y; 一 预测 的 Y;) — 0.04 S X COSE fL Y; — ἘΠΊΗΙ YO 
= 0 而 失去 两 个 自由 度 , 故 SSE 的 自由 度 为 n 一 2。 

。SST 有 (n 一 1) 个 自由 度 . 因 》) CRR Y; — Yo — 0 而 丧失 一 个 自由 度 。 


1012 统计 量 F 


统计 量 下 值 用 以 检验 回归 系数 B 是 否 等 于 0( 全 0) ,进而 判定 回归 直线 是 否 有 意义 。 
其 假设 为 : 

Ho ORB UE. B=0 

Hi( 备 择 假设 ): B 了 0 

车 总 体 满 足 原 假设 B= 二 0, 那 么 从 B —0 的 总 体 中 .如 果 做 无 数 次 样本 (其 容量 为 n) 抽 
样 ,可 以 证 明 , 统 计量 下 为 : 

下 一 (回归 平方 和 /自由 度 ) 二 (误差 平方 和 /自由 度 ) 一 (MSR 二 MSE) 一 F(C1,2 一 2) 
(“一 ” 即 趋 于 ), 即 下 值 将 服从 自由 度 为 (1 ,n 一 2) 的 下 分 布 。 

因此 ,如 果 二 Fa, 则 拒绝 原 假设 .说 明 总 体 中 存在 着 线性 相关 ,有 必要 设置 回归 直 
线 。 如 果 FF 二 Fa, 则 接受 原 假设 .说 明 没有 必要 配置 回归 直线 。 此 处 a 系数 是 指 显 著 性 
水 平 Significance( 一 般 a 二 0.05 或 a 二 0. 01)。 


1013 回归 系数 B 计 算法 


回归 系数 B 即 是 回归 模型 中 B, B: 等 回归 系数 的 估计 值 。 
如 果 式 (10.1) 采 用 矩阵 表示 法 , 则 有 : 

Y = B, +B, X, 十 … 十 BkXk +e: 
通过 数学 转换 之 后 ,最 小 平方 方程 式 可 改写 为 : 


(Χ'Χ}Β = XIY 
或 
B= X'Y(X' X) (10. 4) 
Β 则 是 所 求 的 回归 系数 。 
说 明 : 
式 (10. 40 rP. X Æ Jg B Pe. X! J& X B8 fe vB PE. X! X B9 uk XB P pu Hj CX! X07 
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1014 判定 系数 R 


如 果 因 变量 Y 与 自 变量 X 关系 密切 , 当 ? 个 观测 点 (Xz Yn ) 确 定 后 ,总 平方 和 SST 
则 为 定 值 ( 见 公式 (10.3))。 这 时 ,回归 平方 和 SSR 在 总 平方 和 SST 中 所 占 的 比例 越 大 ， 
回归 模型 解释 误差 的 能 力 就 越 强 。 这 种 能 力 则 称 为 判定 系数 ,用 尽 表 示 。 因 此 ,判定 系 
数 R? 的 公式 为 : 

R? = SSR + SST = (SST — SSE) + SST = 1 — (SSE + SST) (10. 5) 

因为 0 过 SSE 生 SST, 所 以 OR «1, 

判定 系数 RI 有 直观 的 解释 意义 。 例 如 , 当 R? = 二 0.8 时 ,表示 当知 道 Y 与 X 有 线性 相 
关 时 ,可 以 改善 预测 程度 的 80% ,换言之 ,可 用 X 解释 了 的 80% 误 差 。 若 R? 越 接近 1,Y 
与 X 的 关系 程度 则 越 高 。 


1015 残 差分 析 


在 式 (10.1) 中 提 到 se, 这 个 s 是 回归 方程 中 最 后 一 项 ,一 般 称 之 为 残 差 。 
从 图 10. 1 中 可 知 ， 


e; — Y; — Y, (10. 6) 
e, iii NCO.0*0 f) iE s 2 dp. AM d rp un p E PE. TESTE ΠΠ {3 Ce; 二 >) 值 若 趋向 于 
N(0,1), 即 标准 正 态 分 布 , 则 可 由 残 差 图 形 检验 回归 模型 是 否 合 适 。 
M e; —0 时 ,该 线性 回归 模型 是 标准 回归 直线 。 


1016 DW 统计 量 D 


DW(Durbin-Watson) 统 计量 D 用 来 检验 回归 方程 中 是 否 存 在 自我 相关 (Auto- 
Correlation)。 统 计量 D 可 用 图 10.2 说 明 。 


拒绝 Ho 域 ? 接受 Ho 域 ? 拒绝 Ho 域 

正 自我 相关 无 自我 相关 负 自 我 相关 

XL XL XL 

0 DL Du 2 4-Du 4-DL 4 D 


10.2 DW 检验 的 原理 图 


DW 的 假设 检验 为 : 

Ho( 原 假设 ) : o—0Co 为 总 体 自 相 关系 数 ) 
Hi( 备 择 假 设 ) : 750 

。 若 DD 二 DL .该 区 域 为 正 自我 相关 , 则 拒绝 Ho 假设 。 
* 4 4—Du-D-—A-— DL ,该 区 域 未 有 结论 。 

。 车 DD==2. 该 区 域 没有 自我 相关 。 


ss ο ο 
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下 面 表 10. 2 是 GLM 过 程 的 命令 语句 。 
表 10.2 GLM 过 程 的 命令 语句 


PROC GLM [DATA= 王 数据 集 名 称 ][OUTSTAT 王 输出 的 统计 量 ] 
LORDER — FORMATTED|FREQ|DATA|INTERNAL]: 
CLASS 分 类 变量 ; /x 此 为 第 二 条 语句 。 后 面 还 需 MODEL 配合 */ 
MODEL 因 变 量 Y== 自 变量 X[/NOINT|INT|INTERCEPT|NOUNI| 
SOLUTION | TOLERANCE| E| E1 | E2 | E3 | E4 | SS| SS2 | SS3 | SS4 | P| CLM| 
CLI| ALPHA— |XPX| INVERSE| SINGULAR- 1E— 8 或 某 值 | 
ΖΕΤΑ--1Ε- 8380], 
CONTRAST 对 照 说 明 。10 个 汉字 ,20 个 字符 ' 向量 L 及 元 素 
[/E| E— effect 或 默认 为 MS| ETYPE— n| SINGULAR — number]: 
ESTIMATE ffi EHE NT 20 个 字符 ' 值 1 值 2… 
[/E| DIVISOR = number| SINGULAR = number]; 
LSMEANS effect [/E| E— effect| ETYPE= n| SINGULAR = number | STDERR | PDIFF ]; 
[MANOVA H= effect E— effect M= equationsl .2… 
MNAMES- names PREFIX = name[ /PRINTH PRINTE HTYPE=n 
ETYPE-— n CANONICAL SUMMARY ORTH]]: 
[OUTPUT OUT= 数据 集 名 称 PREDICTED-— πὲ fit | P— 2E fit 
[RESIDUAL — 2E fit E | R— 2E fit ]]s 
RANDOM effect/Q: 
[REPEATED 因 变 量 名 因子 1 因子 2… ( 值 1 值 2…) 
[转换 的 关键 词 /选择 项 ;] /* 详 见 ANOVA 第 1 章 */ 
[TEST H- effects E— effect/ HTYPE— ΕΤΥΡΕ-- :] / * YU, ANOVA 35 136 / 
BY 变量 表 ; 


ABSORB 变量 表 ; /* 变量 表 须 预先 SORT。 此 语句 使 GLM 无 法 产生 预测 值 


或 输出 一 个 数据 集 * / 
FREQ 变量 表 ， /* 按 变量 表 的 数值 的 观察 值 n, 显 示 n 次 */ 
ID EEK; /* 要 求 在 同一 行 上 显示 出 各 变量 值 预测 值 及 残 差 x / 
MEANS effect/ 选 择 项 ; /* 选择 项 见 ANOVA 35 1 章 的 MEANS 语句 * / 
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在 10.2 节 中 ,凡是 在 中 括号 [ ] 内 的 命令 或 关键 词 ( 例 如 ,DATA 王 数据 集 名 称 ) 35] 
为 任 选 项 。 带 有 | 符号 的 任 选 项 视 具体 需要 而 定 , 可 任 选 一 项 或 几 项 。 书 写 任 选项 时 , 符 


号 [ 或 | 一 并 表示 分 隔 符 :要 用 空格 替代 。 
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1. 主语 名 PROC GLM 的 说 明 


PROC GLM 语句 中 的 ORDER 王后 面 的 关键 词 , 可 选 下 列 4 个 中 的 某 一 个 : 

(1) ORDER-—FREQ: 要 求 按 观 察 值 频次 降序 排序 。 

(2) ORDER-— DATA : 要 求 按 数据 输入 时 的 观察 值 顺 序 ( 即 原始 数据 行 ) ,显示 数据 行 。 
(3) ORDER 一 FORMATTED: 要 求 按 人 为 指定 的 数据 格式 显示 数据 行 。 

(4) ORDER 一 INTERNAL: 要 求 按 系 统 默认 的 格式 显示 数据 行 。 


2. CLASS 语句 
CLASS 语句 的 一 般 格 式 为 : 


CLASS Vl V2 V3: ; 


其 中 ,V1 V2 V3 等 变量 是 分 类 变量 ,它们 可 按 需 要 书写 一 个 或 若干 个 ,而 且 可 以 是 字符 
型 变量 或 数字 变量 。 如 果 书 写字 符 型 变量 ,其 值 限于 10 个 字符 以 内 。 


注意 : 如 果 选 用 CLASS 语句 , 它 必 须 先 于 MODEL 语句 而 位 于 第 二 条 语句 。 例 如 : 


PROC GIM DATA= OLDER CRDER- FREQ; 
CLASS SEX; 
MODEL NW= edc salnow* salnow; 


3. MODEL 语句 


MODEL 语句 是 GLM 程序 中 必 不 可 少 的 语句 ,用 于 建立 各 种 回归 模型 或 方差 分 析 模 型 。 
车 用 Α.Β.6 代表 分 类 变量 ,用 V1 至 V3 代表 三 个 连续 变量 ,可 用 MODEL 语句 将 


它们 组 成 如 表 10. 3 所 示 的 三 类 模型 。 


表 10.3 MODEL 语句 格式 


MODEL 语句 格式 模型 的 具体 名 称 

MODEL Y-— V1 简单 一 元 回归 

naa MODEL Y=V1 V2 多 元 回归 
MODEL Y-— V1 VI * V2 多 项 式 回 归 ( 高 次 回归 ) 
MODEL Y1 Y2=V1 V2 多 变量 回归 
MODEL Y—A 单 因子 ANOVA 
MODEL Y—A BC 主 效应 (effect) 模 型 

方差 分 析 模 型 MODEL Y—-ABA*B 含 交互 效应 的 因子 模型 
MODEL Y=A B(A) CCB A) E (Nested effec) τ 
MODEL Y1 Y2—A B 多 变量 方差 模型 (MANOVA) 
MODEL Y=A V1 协 方差 分 析 模 型 

混合 模型 MODEL Y=A V1CA) 分 离 斜 率 (Separate-Slopes) 模 型 
MODEL Y=A V1 V1I* A 均一 (Homogenity) 斜 率 模型 


πω ΕΤΕ 


备注 : 

MXELY-A B C A*B A*C B*C A*B*C; 
等 效 于 

MODEL Y=AIBIC; 


等 号 “一 ”左边 为 因 变量 ( 例 如 Y) ,等 号 右边 为 自 变 量 或 称 独立 变量 (例如 ,A B 等 )。 

下 面 按照 功能 类 型 ,逐一 列举 10. 2 节 的 表 10. 2 中 “/” 后 面 的 任 选项 。 

CD 截 距 选择 项 

NOINT: 表示 分 析 模 型 中 不 包含 截 距 参 数 。 

INT INTERCEPT): 要 求 GLM 显示 出 交互 效应 时 截 距 项 的 假设 检验 值 ( 若 不 
指定 INT 则 不 显示 ) 。 

例 10.1: 


MODEL Y-Vl Vl* V2/NOINT; 


(20 结果 输出 中 的 选择 项 

NOUNI: 不 显示 单 变量 的 统计 量 。 

SOLUTION: 要 求 显示 标准 方程 式 的 解 ( 即 : 参数 的 估计 值 ) 。 
TOLERANCE: 要 求 GLM 显示 SWEEP( 扫 描 ) 式 子 中 的 容许 度 Tolerance, 
例 10.2: 


MODEL Y= V1/SOLUTION TOLERANCE; 


(3) 对 标准 假设 检验 进行 控制 的 选择 项 

E; 要 求 GLM 显示 所 有 估计 函数 的 一 般 格式 。 

El: 显示 每 个 效应 (effect) 第 一 类 (TYPET ) 的 估计 函数 。 

E2: 显示 每 个 效应 (effect) 第 二 类 CTYPE 了) 的 估计 函数 。 

E3: 显示 每 个 效应 (Ceffectb) 第 三 类 CTYPE 亚 ) 的 估计 函数 。 

E4: 显示 每 个 效应 (Ceffect) 第 四 类 (CTYPET ) 的 估计 函数 。 

SS1: 显示 每 个 效应 配合 TYPE 了 I 估计 函数 所 产生 的 平方 和 55. 
SS2: 显示 每 个 效应 配合 TYPE 了 估计 函数 所 产生 的 平方 和 55. 
SS3: 显示 每 个 效应 配合 TYPE 亚 估计 函数 所 产生 的 平方 和 55. 
SS4: 显示 每 个 效应 配合 TYPEN 估计 函数 所 产生 的 平方 和 SS。 
例 10.3: 


MODEL Y-Vl/INT E El SSl; 


(4) 预测 值 与 残 差 值 的 选择 项 

P. 要 求 GLM 显示 每 个 观察 值 、 预 测 值 、 残 差 及 DW 统计 量 。 

CLM: 显示 每 个 观察 值 的 均值 .预测 值 的 置信 度 。 

CLI: 显示 每 个 观察 值 的 置信 和 度 (Confidence limit) 。 

ALPHA-P: 指定 置信 区 间 的 a 值 (a 一 0.01、0.05 或 0.1)。 上 默认 为 a—0.05, 
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例 10.4. 
MODEL Y-SEX/SSI P CM 


(5) 显示 中 间 结 果 

XPX: 要 求 显示 X" X 和 矩阵。 

INVERSEGXE D; 显示 X^X 和 矩阵 的 逆 和 矩阵 或 一 般 化 矩阵 。 
例 10.5. 


MEL Y-SEX/CIM I; 


(6) 调整 模型 

SINGULAR — ff n: 调整 回归 模型 对 线性 关系 的 敏感 性 。 默 认 值 为 n 一 IE 一 8。 

ZETA 一 值 m: 对 可 估计 的 TYPE Ill 5 TYPE KV 两 函数 敏感 性 进行 检验 。 默 认为 
n 一 1]E 一 8。 

例 10.6: 

PROC ΟΜ; 

CLASS a b c; 

MODEL Y-a|blc/E2 E3 ZEIA lF- 6; 


4. CONTRAST( 对 照 ) 语 名 
CONTRAST 语句 的 一 般 格 式 为 : 
CONTRAST ' 对 照 说 明 ' [向 量 L 值 1 值 2…]/ 选 择 项 ; 


用 该 语句 ,可 提供 一 个 惯用 的 、 对 结果 进行 假设 检验 的 技巧 。 例 如 .可 指定 一 个 工 向 
量 或 矩阵 ,以便 检 验 单 变量 假设 (He: LB 二 0) 或 多 变量 假设 (Ho。: LBM—0). 

若 假设 的 条 件 确实 可 以 检验 ,在 单 变 量 例子 中 的 平方 和 (Hoe: LB 二 0) 则 可 按 下 式 计 
Slc. 

(Lb) CLCX! X)? L! )? (Lb) (10. 7) 
zUp.bp—0X!'X)X'Y, (平方 和 SS ERE ANOVA RE) 

CONTRAST 语句 中 的 对照 说 明 ” 是 一 个 标签 内 容 , 用 以 说 明 检 验 什么 内 容 。 一 个 
标签 必须 对 应 一 个 CONTRAST 语句 ,而 且 一 个 标签 的 长 度 必须 小 于 20 个 字符 (或 10 
个 汉字 )。 标 签 后 面 的 L 则 是 effect, 意 指 效应 。 效 应 分 为 主 效 应 和 交互 效应 。 再 后 面 的 
值 1、 值 2 是 具体 元 素 。 

例 10.7: 在 “MODEL Y —4A B;” 语 句 中 ,假若 分 类 变量 A 有 5 种 水 平 ( 即 : 5 个 
Level) .分 类 变量 BB 有 3 种 值 . 则 工 向 量 的 元 素 为 : 

(p ΑΙ A2 A3 A4 A5 Bl B2 B3 

Ho: A 合并 线性 (Pooled A Linear) 5 A 二 次 效应 为 0。 

为 了 检验 这 个 原 假 设 , 可 采用 下 列 工 和 矩阵 : 

[ο 一 2 —1 0 120 il 

L= 

0 2 —1 —2 —12 0 0 
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JE L EESE CONTRAST 语句 则 是 : 
CONTRAST 'A linear & quadratic" 

A 2 1 
A 2 1 


ν 6 


Y 
Y 


BD 


CONTRAST 语句 中 斜 杠 “/” 后 面 的 任 选 项 有 : 

(D E: HRERS L HE. 

(2) E=effect: 在 模型 中 指定 一 个 effect MHRA, E= effect OUM) £ 48 iA 
写 , 则 用 估计 的 方差 MS 作为 误差 项 。 

(3) ETYPE=n: 指明 E=effect 的 类 型 。n 二 1、2、3 或 4。 若 指定 E— effect 而 不 指 
E ETYPE 王 n, 分 析 中 则 以 最 高 类 型 来 计算 。 

(4) SINGULAR- number; 用 于 检查 估计 值 。 

在 对 照 中 的 任何 一 行 ,车 ABSCL— La) <C * SINGULAR. ΠΙ L 向量 无 法 估计 。 默 
认 值 为 1E 一 4。 其 中 的 H ÆDT RERE 

例 10.8: 

PROC GIM: 

CLASSABC; 

MODEL Y= A| BI C/E2 E3 ZETA- lE- 6; 


CONTRAST ”只 的 线性 与 二 次 效应 " 
A -2 -1 0 i5 


5. ESTIMATE 语句 
该 语句 用 于 估计 参数 的 线性 函数 , 它 必须 紧 跟 MODEL 语句 之 后 。 其 语句 格式 为 : 
ESTIMATE "标签 内 容 (二 20 个 字符 )' 向 量 名 称 ”元素 1 元 素 2… 
/E DIVISOR- m SINGULAR- n; 
其 中 ,m 为 除数 ;n 为 估计 向 量 L 所 用 的 检验 值 ,默认 值 为 IE 一 4。( 此 项 同 
CONTRAST 中 的 SINGULAR 项 )。 
例 10.9: 


ESTIMATE "估计 A 的 线性 函数 ' Α1 -1/E; 


选择 项 的 说 明 : 

E: 要 求 显示 整个 志向 量 , 见 例 10. 9 所 示 。 
DIVISOR=m: 向 量 中 的 各 元 素 除 以 m. 
例 10. 10: 


ESTIMTE η" A 1 1 -3DIVISOR- 3; 
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等 效 于 


ESTIMATE '':'' A 0.33333 0.3333 一 17 
SINGULAR- nmiber: nunber 是 某 一 个 实际 的 检验 值 ,默认 为 1E- 4. 


6. LSMEANS 语句 


该 语句 要 求 GLM 将 最 小 二 乘法 平均 值 的 计算 结果 显示 在 每 个 效应 下 ,其 语句 格 
式 为 : 


ISFANS A B C/E STDERR PDIFF 
E-effect EIYPE-n  SINGULAR- nunber; 


其 中 , 斜 杠 */” 后 面 各 任 选 项 说 明 如 下 : 
E: 计算 LSMEANS 的 可 估计 函数 并 显示 出 来 。 
STDERR: 显示 LSMEANS 估计 的 标准 误差 .并 计算 Ho: LSM—0 的 概率 。 
PDIFF: 显示 “He: LSM(i) 二 LSMG)” 假 设 中 的 所 有 可 能 概率 值 。 
EE 二 effect: 将 某 个 “effect” 当 作 误 差 项 。 若 不 指定 “EE 二 effect”, 而 只 指定 STDERR 
或 PDIFF , 则 用 均 方 误差 来 计算 标准 误差 及 概率 。 反 之 , 若 仅 指定 ES effect 而 不 指定 
STDERR 或 PDIFF 时 , 则 E= effect 将 不 起 作用 。 
ETYPE 一 A: 见 “4. CONTRAST 语句 ”。 
SINGULAR — number: 同 CONTRAST, 
例 10. 11: 
PROC GM; 
CLASS A B C; 
MODEL YA B C A*E; 
ISMANS A B C A*BE; 
例 10. 11 中 的 LSMEANS 语句 要 求 显示 出 A、B、C 主 效 位 ,以 及 A * B 交互 效应 中 
每 一 个 水 平 (Level) 的 最 小 二 乘法 的 均值 。 


7. MANOVA 语句 
该 语句 用 于 计算 多 元 方差 分 析 (Multivariate Anylysis of Variance) 。 其 语句 格式 为 : 


MANOVA H- effect E- effect M- 3X 1, 式 2… MAMES - Vl ; 

PREEFIX 王 被 转换 的 变量 名 /PRINTH PRINTE SHORT CANONICAL SUMMARY; 
(本 语句 中 的 命令 .关键 词 以 及 斜 杠 后 面 的 任 选项 的 用 法 .请 参阅 ANOVA 有 关 章 节 。 

8. OUTPUT 语句 


该 语句 要 求 GLM 程序 产生 一 个 新 数据 集 。 预 测 值 (Predicted) . 3 25 fi (Residual) 
以 及 数据 集 里 的 变量 值 都 将 存 人 新 数据 集 里 。 
OUTPUT 语句 的 一 般 格式 为 : 
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OUTPUT OOr= 数 据 集 名 称 PREDICTED| P- Vn RESIDUAT.| R- Vn; 


说 明 : PREDICTED|P— Vn Xz& "^ PREDICTED — Vn πὲ P— Vn", Hip Vn 表示 
V1, V2, V3., Vn 等 新 变量 名 。 余 者 类 推 。 新 变量 名 与 因 变 量 或 MODEL 中 的 变量 
dx. 

ΘΙ 10. 12: 

PROC ΟΜ; 

CLASS A B C; 

ΜΠΕ, Y-A B C A*B; 

OUTPUT OUT-newl P-Yhat  R- RESID; 

RUN; 注 : 有 些 例 子 没有 RON。 其 实 微 型 计算 机 中 的 sas 可 以 省 略 RN 语句 ) 

例 10. 12 说 明 : 

OUTPUT 语句 行 中 ,newl 是 任意 指定 的 新 数据 集 名 称 。P 王 Yhat 为 因 变 量 Y 的 预 


测 值 ,相当 于 符号 Y. R—RESID Ἢ Y 的 残 差 ,相当 于 R— χι χι. 

9. RANDOM 语句 

该 语句 指定 模型 中 具有 随机 性 的 effect (效应 ) 项 ,以 便 GLM 显示 出 TYPE I~ 
TYPE 中 每 一 个 effect 的 期 望 值 。 其 语句 格式 为 : 

RANXM A B ΟΛ; 

选择 项 “/Q”, 是 显示 主 效 应 中 期 望 均 方 的 完整 的 二 次 形式 (Quadratic form) fH; 

例 10. 13: 


PROC αμ; 
CAS A B C; 
MOEL YA B C ἈΧΒ; 
RANDOM SEX EDC/Q; 
OUTFUT OUIT-newl  P-Yhat  R-RESID; 


10. REPEATED 语句 

该 语句 表示 在 同一 试验 单位 下 ,在 MODEL 语句 中 因 变 量 值 具有 的 重复 测量 。 其 语 
句 格 式 为 : 

REPEATED 因 变 量 名 因子 1 因子 2… (人 值 1 值 2…) 


CONTRAST (n) | FOLYNOMIAL| HELMERT | MEAN (n) | PROFILE: +- 
/NOM NOU FRINIM PRINTH PRINTE PRINIRV 


SMART CERCRIICAR, ARIDE 
该 语句 的 用 法 详 见 ANOVA 有 关 章 节 。 
11. 其 他 语句 
其 他 语句 如 下 : 
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以 上 4 条 语句 参阅 本 章 10. 2 节 的 相应 格式 说 明 。 此 外 ,TEST HA, MEANS 语句 
详 见 ANOVA 的 相应 语句 。 
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通常 有 这 类 情形 : 某 公 司 的 经 济 效益 与 经 营 管理 模式 、 员 工 服 务 意识 .产品 的 产销 对 
路 、 售 后 服务 及 成 本 核算 等 因素 有 关 。 农 场 的 收成 ,与 地 质 的 优 劣 、 种 子 的 优 劣 及 田间 管 
理 的 差异 等 因素 有 关 。 又 例如 ,人 口 增长 率 往往 与 育龄 青 壮年 的 婚姻 状况 、 婴 儿 出 生 率 
以 及 死亡 率 等 要 素 密 切 相 关 ; 通 过 这 些 要 素 ,希望 预测 某 个 时 期 人 口 增长 的 情况 ,以 便 制 
定 出 相应 的 计划 生育 措施 ,诸如 此 类 的 问题 ,应 该 通过 回归 分 析 法 解决 。 
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本 节 引 用 北京 大 学 郭 崇 德 教授 1991 年 关于 社区 服务 的 一 个 调查 数据 ,说 明 简 单线 
性 回归 的 分 析 法 。 为 了 节省 版 面 ,随机 抽取 北京 市 东城 区 77 位 老人 (个 案 ) 进 行 分 析 , 分 
析 的 变量 如 下 。 

EDC: 老年 人 的 文化 程度 

SAL1: 退休 前 的 月 收入 

SAL2: 退休 后 的 月 收入 

V1: 医疗 保障 

V5: 就 医 困 难 情况 等 。 

下 面 要 求 采用 GLM 过 程 估计 退休 后 的 月 收入 与 其 文化 程度 是 什么 关系 ,进而 建立 
一 个 简单 线性 回归 的 方程 式 。 

程序 10.1: 用 GLM 过 程 对 工资 进行 简单 线性 回归 分 析 。 


DATA Xsql; 
INEUT idl 1- 2 caseid 3- 5 n 6 sex 7 age 8- 9 edc 10 ocul 11 ocu2 12 
Sall 13- 15 sal2 16- 18 (vl- v5) (5* 1.); 

LABEL n= ' 称 谓 ' sex- ' 老 人 性 别 ' age- "E A 4E lit * eac- ' 受 教育 年 限 ' 
ocul- ' 退 休 前 职业 ' ocu2- ' 退 体 后 职业 ' sall= ' 退 休 前 月 收入 :元 ' 
sal2- "退休 后 月 收入 :元 '; 

CARDS; 

11001117742007815123113 

11001717942099172222215 

11002526952007809911321 

11002617052015017011321 


11003517452011018022222 
11003626/52011516812223 
11004226121009007031311 
11005525732620010011324 
11006227521004610321310 
11007228910000000031120 
11008526921112515011210 
11009617623007014012121 
11010615842212010011314 
11011526640000000031310 
11012625142625014021414 
11013117521609220011220 
11013227411605010211320 
11013316622019016011420 
11013426321005509811220 
11014116032020015011410 
11015516952020025011410 
11015626232008415011410 
11016516042026023511210 
11017627420000000031410 
11018627346005013011410 
11019226522609011521320 
11020226011600009021411 
11021526752003214221411 
11022616326618015011413 
11022525526612009721410 
11023227744613010512213 
11023427236600000031312 
11024516740030018611220 
11024626320007010621320 
11025516754016621611424 
11026626421108712021420 
11027226616600000031410 
11028616332020000011210 
11029518031120020011130 
11029627011118018021430 
11030516742016019011221 
11031515642023000021220 
11030625321010509011320 
11032116131019017011222 
11032226220000000031321 
11033627910000000032311 
11034625342015212312122 
11035515831115015011210 
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11035625231112012011210 
11036526511607012711410 
11036616632215015011410 
11037526021006114011410 
11037617621106013011210 
11038118231000011012411 
11038228431000011012414 
11039316452018000011213 
11039426042016000012213 
11040627122607513011412 
11040517622608615011412 
11041525633605611011310 
11041616032610018011210 
11042527946600000012222 
11043517332615010011310 
11044526216600000021410 
11044616816600000021210 
11045617742605013011425 
11046728410000000032220 
11047727010000000032212 
11048525631020014011310 
11048615531024000011210 
11049116952208015011110 
11050516922615013011313 
11050626710000000032211 
11051516842614023011210 
11051626202000000031311 
11082516235509010021210 
12002616452619522011211 
12003525821204006030010 
12004517011608506013113 
12004626121206405011411 
12005617152636036013110 
12006516132233033011210 
12007116726600000011310 
12007226016600000031310 
12008428326600000031210 
12009116122212531131121 
12009225811606007831322 
12010525€21613012011411 
12010615621613513011411 
12011315826600000011220 
12011425521600000011320 
12012516221630017011311 


12012626326600000021113 
12013525846623028011210 
12013615836623028011315 
12014625821100000011315 
12015616252630026011210 
12016116636615000012224 
12016225556615000031411 
12017427816600000032110 
12018117411618012021212 
12018226811610008021314 
12019526711603712511210 
12020516746020020011310 
12020626326015020011310 
12021116056600000011322 
12021225846600000021325 
12022616552612000011310 
12022526332609900011310 
12023117311600005013110 
12023226611600005011410 
12024616355600020011212 
12025316542600000011410 
12025426042600000011410 
12026116126620025011322 
12026226321608010011324 
12027316026620018012110 
120277425436612008011310 
12028516132233033011210 
12029616455626025011312 
12030116221018018011210 
12030225421010509621310 
12031225821118015011310 
12031115842220000011212 
12032527532606014012213 
12033117326600017011320 
12033227016600000032220 
12034516936600021511210 
12034617056600005032413 
12035117321610000000000 
12036226555620015011310 
12037616242625025011310 
12037525842618613811310 
12038229216600000031210 
12038626716600000031310 
12039516352630030012113 
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12040618052618030012110 
12040527754608016021410 
12041526316600000021312 
12042228200000000021210 
12043227500000001321222 
12044517333605113811221 
12045116921110008011210 
12045226811100000021410 
12046229000000000032110 
12047517721609728312204 
; 
PROC GIM; 
PROC FORMAT; 
VALE n 1- "£z" 2- "Bk ze" 3- "Ην e. GL IA)" 4- "ΕΒΕ GER )n 
SPE" ERA" 1 "Efl, ERME)" 
VAIJE sex 1- "Jj " 2= "Ix '; 
VALUE edc 1- ΑΕ" 2- ' 小 学 ' 3- "Wi" 
4- "高 中 或 中 专 ' 于 AURA FE 

PROC GIM; 

MODEL SAL2- edc; 

OUTPUT out- outl p- predict r= residual; 
PROC PLOT; 

PLOT sal2* edc predict * edc- "p" /OVERLAY; 

PLOT residual * edc/vref- 0; 
RUN; 


运行 程序 10.1 产生 图 10.3 至 图 10.5 所 示 的 结果 。 


πι sas- [得 出 - 无 标题 》 PROC PLOT 正在 运行 ] 

EA TD MAD GEW TAD PANED WOW IT -|B|x 

«D π ΓΥΡΟΣ 

I] GUPRZDHDORSRUDD «σερ; EUST 17:47 Thursday, February 28. 2012 国 
The GLN Procedure 1 

Number cf observat ions ΤΕ 

ΕΠ ATIS » 17:4? Thursday, February 28, 2002 

The GLN Procedure 


Dependent Yarisble: sal2 ” 进 休 后 月 收入 :元 


Sum of Ν 
Source oF Squares Wean Square νο Pr>F 


Model 1 30757.7391 90757.7391 10.26 — 0.0020 
Error 74 — 654868.1351 9643.5702 
Corrected Tetel 75 745625.9342 


Ὀ —— Coeff Yar Root HSE -ο!2 kean 
0.121720 62.79857 34.07215 13.6184 


(a) 北京 市 东城 区 社区 服务 剑 究 数 据 分 析 一 
10.3 简单 线性 回归 输出 图 
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T sns - [输出 - 《无 标题 ) PROC PLOT 正在 运行 ] 
E^ ERO sap) wem) 工具 (D FATED HAW HRH 


Cam η υπο 


R-Scuere Cosrf Var Root MSE sal? Mean 


0.121720 82.79857 34.07215 114.8184 


Source e ISS — Mean Square F Value 


90757.73803 10.26 


Wean Square F Value 
90757.73909 90757.79663 10.26 
Standard 
Parameter i Error — t Value 


Intercept 25.98237817 1.48 
ade NX 8285481481 EX] 


F 北京 六 学 - Microsoft 
(0) 北京 市 东城 区 社区 服务 研究 数据 分 析 
图 10.3 (46) 


TY sas - [输出 - 《无 标题 〉 PROC PLOT 正在 运行 ] 


DLA *xoe 


T sas - [输出 - (无 标题 〉 — PROC PLOT 正在 运行 ] 
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1042 数据 统计 


1. 北京 市 东城 区 社区 服务 研究 数据 分 析 之 一 : 结果 见 图 10. 3。 
2. 大 中 城市 社区 服务 研究 《居民 调查 数据 分 析 之 二 : 结果 见 图 10.4. 
3. 大 中 城市 社区 服务 研究 《居民 调查 》 数 据 分 析 之 三 : 结果 见 图 10. 5。 


1043 数据 挖掘 
下 面 逐 一 分 析 程 序 10. 1 的 输出 结果 ( 见 图 10. 3 一 图 10. 5}. 
1. 程序 10.1 中 的 第 三 个 PROC 子 程序 


PROC PLOT; 
PLOT SAL2* edc PREDICT * EDC- 'P'/OVERLAY; 
PLOT  RESIDUAL* edc/VREF- 0; 


这 个 “PROC PLOT;” 子 程序 下 面 的 第 一 个 PLOT 语句 “PLOT SAL2 κ edc 
PREDICT * EDC— P/OVERLAY;";*^/E fd 10. 4。 这 是 一 幅 “ 当 前 工资 * 教育 水 平 ( 即 : 
SAL2 * edc)” 的 散 点 图 。 等 号 “一 ”后 面 的 P 是 任 选 字符 ,用 于 表示 图 点 。 再 后 面 的 “/ 
OVERLAY"” 要 求 将 两 个 图 形 全 在 一 起 以 便 比较 。 

图 10.4 中 的 A 代表 1 个 观察 值 (人 ),B 代表 2 个 观察 值 ( 人 ),S 代表 19 个 观察 值 
COBS HIA ,个案 ) 等 , 余 者 类 推 。 横 轴 是 受 教 育 年 限 ( 从 文盲 到 大 专 以 上 ), 纵 轴 是 当前 工 
资 ( 由 0 到 1000 元 ) 。 从 散 点 图 10.4 可 知 ,小 学 文化 程度 的 月 收入 200 元 左右 的 有 1 人 
( 见 图 点 AO ,初中 文化 程度 的 月 收入 200 元 的 有 1 人 ( 见 图 点 “A”) ; 余 者 类 推 。 

"PROC PLOT;” 子 程序 的 第 二 个 “PLOT RESIDUAL κ edc/VREF= 二 0;” 语 句 , 产 生 
图 10.5。 这 是 一 幅 “ 残 差 * 教育 水 平 * 的 散 点 图 。 图 中 通过 0 点 的 一 条 直线 是 由 该 语句 
后 面 的 /VREF 二 0” 产 生 的 ,表示 “ 正 负 值 的 分 界线 "。 但 是 ,SAS 8. 1 版 本 画 出 的 “通过 0 
点 的 一 条 直线 ”不 是 直线 ,而 是 由 汉字 组 成 的 线 , 图 10. 5 是 SAS 9e 版 本 产生 的 散 点 图 。 

通过 散 点 图 看 出 : 残 差 是 随 着 教育 水 平 的 提高 而 增加 ,说 明 残 差 不 是 独立 的 ,模型 不 
拟 合 数据 。 


2. 程序 10. 1 中 的 “PROC GLM" 子 程序 


运行 PROC GLM 整个 子 程序 产生 图 10. 3 的 结果 。 下 面 从 10 个 方面 加 以 分 析 。 

(OD 方差 分 析 的 统计 量 。 

Model 的 Sum of Squares: 回归 平方 和 (Regression Sum of Squares 简称 SSR ) 一 
90757.7391。 误 差 平方 和 (Error Sum of Squares 简称 SSE) —654868. 1951。 总 平方 和 
(Total Sum of Squares 简称 SST) =745625. 9342。 三 者 的 自由 度 分 别 为 1、.74、75。 回 归 
平方 和 的 均值 (MSR) 一 90757.7391, 误 差 平方 和 的 均值 (MSE) 一 8849. 5702。 实 际 的 下 
f& —10. 26 ,其 概率 P 为 0.0020, 小 于 显著 性 水 平 a 二 0.05。 说 明 模 型 拟 合 数 据 , 不 必修 
改 回归 模型 。 
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(2) 判定 系数 R-Square: R-Square 即 R? .其 值 为 0. 121720。 

P3 Jy R? — SSR— SST — 90757. 73912 745625. 9342 一 0. 121720, 所 以 说 明 当 前 月 收入 
的 变化 仅 有 12. 2% 是 来 自 教育 水 平 的 变化 。 因 此 ,本 例 中 用 教育 水 平 来 预测 退休 后 的 月 
收入 是 不 适合 的 ,应 选用 其 他 自 变 量 。 

(3) Root MSE: 等 于 SQRTCMSE) 一 SQRT(8849. 5702) —94. 07215。 

(4) C。V 值 : 偏差 (Coefficient of Variation) ,表示 总 体 的 变异 性 ,是 由 下 式 得 到 的 : 

ο. V= (ROOT MSE/MEAN) = 100 
= (8849. 5702/113. 6184211) * 100 = 82.79657 

(5) TYPE I SS. 表示 第 一 类 型 的 平方 和 , 即 : 每 一 个 自 变 量 分 别 入 选 到 回归 模型 
时 MODEL 的 平方 和 (SSR) 的 增值 。 其 算法 是 先 计 算 MODEL 中 的 第 一 个 自 变 量 所 解 
释 的 平方 和 ,再 计算 第 二 个 自 变 量 所 解释 的 剩余 平方 和 。 依 此 逐次 计算 出 各 个 和 白 变 量 的 
平方 和 一 序列 平方 和 。 此 例 只 有 一 个 ede 自 变 量 , 所 以 TYPE I SS(edc) 等 于 原来 的 回 
归 平 方 和 90757. 7391, 

(6) TYPE Ill SS: 表示 第 三 类 型 的 平方 和 , 即 当 每 一 个 自 变 量 分 别 是 最 后 一 个 人 选 
到 回归 模型 时 ,计算 出 的 MODEL 平方 和 (SSR) 的 增 量 。 

此 例 只 有 一 个 ede 自 变 量 , 所 以 TYPE Ill SS (edc) 等 于 原来 的 回归 平方 和 
90757.7391。 

(7) Estimate; 回归 方程 式 及 回归 系数 的 估计 值 。 由 于 截 距 项 的 回归 系数 Bo = 
37. 92682927 , 自 变量 ede 的 回归 系数 为 26.7560975 ,因此 回归 方程 式 为 ， 

Y; = 37. 92682927 + 26. 7560975 * X, (10. 8) 

(8) t Valu: 用 以 检验 各 个 自 变量 是 否 为 0 的 工 值 。 

Ho ( 原 假设 ): B, —0;B, —0 

Hi( 备 择 假设 ): Bu 天 0;B, 天 0 

(9) Pr |tl ; 这 是 第 (8) 项 工 值 所 对 应 的 概率 。 本 例 的 Pr 二 1t| 一 栏 下 面 分 别 为 : 
0.0020。 它 小 于 显著 性 水 平 a—0. 05. 说 明 与 第 (8) 项 的 结论 相同 , 即 自 变量 的 回归 系数 
不 能 为 0。 

(10) Standard Error; 这 是 回归 系数 估计 的 标准 误差 。 从 图 10. 3(b) 可 知 , 截 距 项 的 
标准 误差 为 25. 98237817, 自 变量 ede 的 标准 误差 为 8. 35491481, 较 大 。 


3. 分 析 摘 要 


了 解 以 上 各 个 参数 的 来 历 和 重要 性 之 后 ,如 果 要 判断 模型 的 优 劣 ,可 看 (1) 方 差分 析 
的 统计 量 ,特别 是 P 值 : 它 位 于 Pr>F 一 栏 , 其 值 为 0.0020, 小 于 显著 性 水 平 a 值 0. 05。 
说 明 模 型 拟 合 数据 ,不 必修 改 回归 模型 。 如 果 要 观察 某 变 量 进 入 方程 后 对 于 模型 的 贡献 
多 大 ,可 以 观察 “(2) 判 定 系 数 "R? ,R? 应 该 大 于 0. 5。 

最 后 是 通过 ”*(9)Pr 二 |tl2? 的 值 , 观 察 某 变量 的 回归 系数 是 否 可 靠 , 此 值 应 该 小 于 
a 一 0.05( 或 a—0. 001). 


4. 怎样 写 回 归 方 程 (数据 的 挖掘 ) 
综 上 所 述 ,本 例 的 模型 拟 合 数据 ,而 且 本 例 的 回归 方程 为 : 
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退休 后 的 工资 一 37. 92682927 +26. 7560975 κ 受 教育 年 限 。 
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上 一 节 介 绍 过 简单 的 线性 回归 ., 它 只 用 一 个 自 变 量 来 解释 因 变 量 。 但 在 实际 运用 
中 ,为 了 正确 反映 因果 关系 ,往往 要 利用 两 个 以 上 的 自 变 量 来 解释 因 变 量 , 这 种 方法 称 为 
多 元 回归 (Multiple Regrssion) 。 


1. GLM 的 源 程序 


GLM 的 源 程序 是 在 程序 10. 1 的 基础 上 建立 多 元 回归 模型 (有 edc 和 ocul 两 个 自 变 
量 ) 的 。 
(1) 二 元 回归 语句 


PROC GIM; 
MODEL SAL2- edc ocul; 


(2) 完整 的 程序 10.2 如 下 
程序 10. 2: 


DATA Xsql; 

INEUT idl 1- 2 caseid 3- 5 n 6 sex 7 age 8- 9 edc 10 ocul 11 oau2 12 
sall 13- 15 sal2 16- 18 (vl- v5) (5* 1.); 

LABEL n- ' 称 谓 ' sex- ' 老 人 性 别 ' age- ' 老 人 年 龄 ' eac- ' 受 教育 年 限 ' 
ocul- ' 退 休 前 职业 ' oca2- ' 退 休 后 职业 ' sall= ' 退 休 前 月 收入 :元 ' 
sal2- ' 退 休 后 月 收入 :元 '; 

CARDS; 

11001117742007815123113 

11001717942099172222215 

11002526952007809911321 

11002617052015017011321 

11003517452011018022222 

11003626752011516812223 

11004226121009007031311 

11005525732620010011324 

11006227521004610321310 

11007228910000000031120 

11008526921112515011210 

11009617623007014012121 

11010615842212010011314 

11011526640000000031310 

11012625142625014021414 

11013117521609220011220 

11013227411605010211320 


11013316622019016011420 
11013426321005509811220 
11014116032020015011410 
11015516952020025011410 
11015626232008415011410 
11016516042026023511210 
11017627420000000031410 
11018627346005013011410 
11019226522609011521320 
11020226011600009021411 
11021526752003214221411 
11022616326618015011413 
11022525526612009721410 
11023227744613010512213 
11023427236600000031312 
11024516740030018611220 
11024626320007010621320 
11025516754016621611424 
11026626421108712021420 
11027226616600000031410 
11028616332020000011210 
11029518031120020011130 
11029627011118018021430 
11030516742016019011221 
11031515642023000021220 
11030625321010509011320 
11032116131019017011222 
11032226220000000031321 
11033627910000000032311 
11034625342015212312122 
11035515831115015011210 
11035625231112012011210 
11036526511607012711410 
11036616632215015011410 
11037526021006114011410 
11037617621106013011210 
11038118231000011012411 
11038228431000011012414 
11039316452018000011213 
11039426042016000012213 
11040627122607513011412 
11040517622608615011412 
11041525633605611011310 
11041616032610018011210 


zs maowimanmmae 
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11042527946600000012222 
11043517332615010011310 
11044526216600000021410 
11044616816600000021210 
11045617742605013011425 
11046728410000000032220 
11047727010000000032212 
11048525631020014011310 
11048615531024000011?10 
11049116952208015011110 
11050516922615013011313 
11050626710000000032211 
11051516842614023011210 
11051626202000000031311 
11082516235509010021210 
12002616452619522011211 
12003525821204006030010 
12004517011608506013113 
12004626121206405011411 
12005617152636036013110 
12006516132233033011210 
12007116726600000011310 
12007226016600000031310 
12008428326600000031210 
12009116122212531131121 
12009225811606007831322 
12010525621613012011411 
12010615621613513011411 
12011315826600000011220 
12011425521600000011320 
12012516221630017011311 
12012626326600000021113 
12013525846623028011210 
12013615836623028011315 
12014625821100000011315 
12015616252630026011210 
12016116636615000012224 
12016225556615000031411 
12017427816600000032110 
12018117411618012021212 
12018226811610008021314 
12019526711603712511210 
12020516746020020011310 
12020626326015020011310 


12021116056600000011322 
12021225846600000021325 
12022616552612000011310 
12022526332609900011310 
12023117311600005013110 
12023226611600005011410 
12024616355600020011212 
12025316542600000011410 
12025426042600000011410 
12026116126620025011322 
12026226321608010011324 
120277316026620018012110 
12027425436612008011310 
12028516132233033011210 
12029616455626025011312 
12030116221018018011210 
12030225421010509621310 
12031225821118015011310 
12031115842220000011212 
12032527532606014012213 
12033117326600017011320 
12033227016600000032220 
12034516936600021511210 
12034617056600005032413 
12035117321610000000000 
12036226555620015011310 
12037616242625025011310 
12037525842618613811310 
12038229216600000031210 
12038626716600000031310 
12039516352630030012113 
12040618052618030012110 
12040527754608016021410 
12041526316600000021312 
12042228200000000021210 
12043227500000001321222 
12044517333605113811221 
12045116921110008011210 
12045226811100000021410 
12046229000000000032110 
12047517721609728312204 
PROC GIM; 

PROC FORMAT; 
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VALE n 1- "4 R" 2- "BER" 3- "Ην ΟΣ" 4 n Bk ϱ EE )n 
SP È" eU An 7- "Hol ERME)" 
VALUE sex 1- "Hb" 2- "τσ; 
VALE edc l= 'XC FE ' 2e ' 小 学 ' 32 ' 初 中 ' 
4- 高 中 或 中 专 ' 于 ARMES 

PROC GIM; 

MEL SAI2- edc; 

OUTPUT out- outl P= predict F= residual; 
PROC PLOT; 

PLOT sal2* edc predict * edc- "p" /OVERIAY; 

PLOT residual * edc/vref= 0; 
RUN; 


后 ,在 图 10. 6 的 程序 编辑 器 中 编辑 修改 程序 10. 2。 


下 sas - [程序 编辑 器 - 程序 10.2.sas PROC GLM 正在 运行 ] 
*) LD 编辑 (E EEV IAD 运行 (R) 解决 方案 (3) 窗口 (W) MHH 
~ JOSM Sn len DPA αΦ9Φ 


[DATA Χεα; 
INPUT idi TE mé (sex Z ae 8-9 edo 10 ocul 11 ocu? 12 
2 BARCO 


gy GUN ER 
Hie tet TAE 


2000000031311 
5509010021210. 


Akat 155 mee) 
dines 

ALuE sex 

VALUE ede 


[程序 编辑 器 58 北京 大 学 -Mecrosoft 


10.6 完整 且 可 以 执行 的 二 元 回归 程序 


运行 图 10.6 中 的 程序 10. 2 产生 图 10.7 所 示 的 结果 。 
从 程序 10. 2 的 MODEL 语句 .可 以 挖掘 出 以 下 的 二 元 回归 模型 : 
SAL; = B, + B, * edc + B; * ocu; (10. 9) 


2. GLM 的 输出 结果 
输出 见 图 10.7。 
3. GLM 的 结果 分 析 


图 10.7 与 图 10. 3 大 致 相同 。 现 把 不 同 之 处 说 明 如 下 。 

(1) Model 的 Sum of Squares: 回归 平方 和 为 95827. 9648, 因 有 两 个 自 变量 ,因此 自 
由 度 为 2。 又 因为 观察 值 为 76 个 ,因此 修正 后 的 总 平方 和 的 自由 度 为 (76 一 1) 一 75, 而 误 
差 平方 和 (Error sum of Squares) ff] Η rH E Jg 73. "Pr—— F" fü Jy 0. 0066 小 于 a 值 0. 05， 
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στὰς - [输出 - 《无 标题 》 PROC GLM 正在 运行 ] 


[Dependent variable: sa12 ”退休 后 月 收入 :元 


Model 35827.9648 47913.9824 
Error 8497979694 8901.3420 
Corrected Total 745625.9342 


R-Square Coeff Var Root NSE  sal2 Mean 
0.128520 83.03840 34.34892 113.6184 


oF Type D SS Mean Square F Value 
1 30757.73909 — 30757.73908 
1 5070.22568 507022568 
ΒΕ Type III SS — Mean Sausi 
1 94701.7340 34701.73400 
1 ο κ] 5070-22568 
Standard 
Est imate Erre 
45.65668193 2799878839 1.68 


27-54095302 844360364 3:26 
487509221 8:59187018. -0:75 


10.7 二 元 线性 回归 输出 示意 图 


模型 很 显著 。 

(2) TYPE I SS: 是 第 一 类 型 中 第 一 个 自 变 量 edc 所 能 解释 的 平方 和 ,其 值 为 
90757. 73909 (UJ, EDC 一 行 )。 第 二 个 自 变 量 ocul 所 解释 的 剩余 平方 和 为 5070. 22568. 

可 见 , 预 先进 入 回归 模型 的 自 变量 , 比 以 后 进入 回归 模型 的 自 变量 的 平方 和 大 得 多 。 

(3) TYPE Ill 55. 表示 ,在 计算 每 个 自 变量 的 平方 和 时 . 先 排除 其 他 自 变 量 的 影响 。 
由 此 获得 的 平方 和 称 为 “ 偏 平方 和 ”(Partial sum of Squares) ,也 称 为 第 三 类 型 的 平方 和 。 
在 本 例 中 ,eac 和 ocul 自 变 量 的 偏 平 方 和 分 别 为 : 94701. 73400 与 5070. 22568. 

(D Pr 二 |tl : 此 项 是 “回归 系数 B, 二 0” 的 t 值 的 检验 值 ,变量 ede 的 t 检 验 的 概率 也 
值 等 于 0.0017, 小 于 a ffi 0.05 ,变量 ede 的 回归 系数 有 效 。 但 变量 ocul 的 t 检 验 的 概率 
P 值 等 于 0.4528, 不 显著 。 

(5) Estimate; 回归 系数 估计 值 。 截 距 项 的 回归 系数 为 Bo 0945. 66, 自 变量 ede fr) [5] 
归 系 数 为 Bi ™27. 54。 第 二 个 自 变 量 ocul 的 回归 系数 为 B: 盖 一 4.98. 但 因 不 显著 而 忽 
上 略 。 所 以 此 例 的 回归 方程 式 为 : 

Y;—45.65668193--27. 54095902 * X 


或 
SAL, 一 45. 66 十 27. 54 * edc (10. 10) 
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1061 多 项 式 回 归 的 一 般 模 型 
多 项 式 回归 与 多 元 回归 的 相似 之 处 :是 由 一 个 或 两 个 以 上 自 变量 解释 一 个 因 变 量 。 
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其 不 同 之 处 在 于 ,多 项 式 回 归 模 型 中 的 自 变 量 可 以 以 索 的 方式 表示 。 例 如 : 一 个 自 变量 
的 二 次 方程 为 : 


Y; B, +B, X; +B: Xi 
一 个 自 变量 的 三 次 方程 为 : 
Y; =B, +B, X: +B: X? +B; X? 
一 个 自 变量 的 高 次 方程 为 : 
Y, CB, +B, X; +B: X? +B; X? +- -B,X1 
同 理 : 两 个 自 变量 的 二 次 方程 为 : 
Y; B, +B, Xa +B, X2 ΓΒιι Xå Bis Xa. Xa - Bos X 
上 述 模型 是 一 个 或 几 个 自 变 量 解释 一 个 因 变量 Y。 当 自 变 量变 化 时 ,对 Y 的 影响 不 
仅 在 程度 上 ,而 且 在 方向 上 均 产 生变 化 。 


1062 多 项 式 回 归 的 实例 


有 一 个 厂家 ,5 个 月 中 产品 的 广告 费用 ,与 销售 额 之 间 的 抽样 数据 见 表 10. 4。 
表 10.4 产品 的 广告 费 与 销售 额 的 数据 


X: 广告 费用 (元 ) Y: 销售 额 ( 元 ) X: 广告 费用 (元 ) Y; 销售 额 (元 ) 
1,000 101.000 2.000 209.000 
1,250 116.000 2.500 264.000 
1.500 165.000 


1. 求解 


CL 销售 额 与 广告 费用 ,及 销售 额 与 (广告 费用 )? 的 一 元 二 次 回归 模型 ; 
(20 相关 系数 和 判定 系数 ; 
(3) 是 否 有 推论 意义 (a 二 0. 05)。 


2. 解答 


根据 题 意 , 建 立 以 下 的 一 元 二 次 回归 模型 
Y—B,-Bi X, +B: X; * Xi 
同时 ,设计 了 计算 回归 系数 的 多 项 式 回归 程序 ( 见 程序 10. 3) 。 
程序 10. 3: 回归 模型 为 y —aX-- bX * X 的 回归 分 析 。 
DATA sales; 


INETyxG; 
xsq-xx * 2; /x 计算 x 的 平方 值 */ 


1000 101000 
1250 116000 


1500 165000 
2000 209000 
2500 264000 
PROC print; 
PROC GIM; 
MODEL y= x xsq; 


OUTPUT OUT- sa P= PREDICT ΕΞ RESIDUAL; 


PROC PRINT DATA- sa; 


3 用 GLM 过 程 进行 回归 和 分析 
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/* 显示 Y,XX V Jr fH * / 


/* Y 为 因 变量 , x 和 Χο 为 自 变 量 * / 
/x* 可 省 */ 


运行 程序 10. 3 产生 图 10. 8 所 示 的 结果 。 


berencent Variable: v 


Source 
Mecel 
Error 


Corrected Total 


R- Sova re 
0.389235 


Scurce 


Paraneter 
Intercept 
κ 

Xsq 


PREDICT 


1050.68 
152-81 


The GLM Procedure 


Sm of 
Saares Mean Square — F Yelue 


DF 
2 1434391.012 717195.508 31.30 
2 15608.9868 7004.494 
4  — 1450000.000 


Cosff Yar Foot NSE y Mes 
5.354124 88.34905 1850.000 


DF Τνρο [55 Mean Square — F Yolue 
1 1431292.827 1431292.927 183.38 
1 3090.085 2098.065 0.40 
Type IIL SS Mean Square F Value 
9147.121562 9147.121562 1.17 0.3921 
3092.085030 3038.085030 0.40 0.5820 
Standard 
Estimate Error 


431.0682705 
[8 


BSH- Cm... 四 日 志 -无 标题 ) | 国 程序 编辑 器 - 程 ... 


10.8 


Επεήδας9.α 


(b) 回归 模型 


一 元 二 次 (Y= 二 ax 十 bx? ) 回 归 模 型 的 输出 示意 图 
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4. TY SES 


3. 多 项 式 回归 的 输出 结果 
图 10. 8 是 多 项 式 回 归 的 输出 结果 。 
4. 结果 分 析 


COD Ho ( 原 假 设 ): Bı =B: =B; =+- Bi 一 0( 回 归 系 数 全 为 0)。 

从 图 10. 8(b) 得 知 ,由 于 “F Value” 是 模型 检验 项 ,此 值 的 概率 P 为 0.0108, 小 于 a 
值 0. 05, 所 以 拒绝 Ho 原 假设 ,回归 系数 不 为 0, 说 明 回 归 模 型 正确 。 

(2) Estimate; 估算 的 回归 系数 。 本 例 中 ,该 截 距 项 的 回归 系数 虽 为 Bu 一 
388. 4528270 ,但 因 不 显著 而 被 排除 。 再 看 自 变量 X 与 XSQ 的 回归 系数 ,它们 分 别 为 
B, —0. 0056449 和 B; —0. 0000000( 也 可 以 忽略 不 计 ) :因而 本 例 的 回归 方程 式 虽 然 为 : 销 
售 额 Y 一 388. 4528270 十 0. 0056449 * 广告 量 , 但 是 二 次 项 完全 不 适合 。 

(3) t Value: 工分 布 , 用 于 检验 回归 系数 是 否 显 著 。 例 如 截 距 Bo CIntercept) 的 回 
归 系 数 t 值 等 于 0. 9, 此 值 小 于 T(0. 05,2) 二 2. 92。 或 者 说 显著 性 水 平 0. 4626 大 于 
a(0.05), 所 以 没有 充分 的 理由 拒绝 原 假设 (注意 : 此 时 不 能 说 成 接受 原 假设 ) ,说 明 回 归 
模型 的 截 距 项 与 0 的 差别 不 显著 。 本 例 没 有 推论 意义 。 

(4) R? =0. 989235 ,接近 百 分 百 ,说 明 自 变量 Χ 解释 了 因 变 量 98% 的 变异 性 ,判定 系 
数 很 好 。 所 以 不 需要 设置 X 的 平方 项 Xsq。 

综 上 所 述 本 例 数据 只 适合 于 一 元 一 次 回归 模型 。 


107 虚拟 交 量 的 用 法 


通常 情况 下 ,回归 分 析 中 所 用 的 自 变 量 的 数值 是 连续 的 ,但 有 时 有 必要 创建 一 个 (或 
几 个 ) 虚 拟 变 量 , 将 原 有 的 变量 值 表 示 成 两 个 或 几 个 特殊 的 数值 。 例 如 ,考生 的 成 绩 , 如 
果 政 治 和 数学 的 成 绩 都 达到 85 分 者 ,这 个 虚拟 变量 (Dummy Variable) 的 值 为 1, 和 否则 
为 0。 

下 面 举 个 例子 。 考 生 语文 .数学 .英语 等 科目 的 平时 成 绩 见 数据 文件 score. dat, 用 虚 
拟 变量 计算 回归 参数 及 其 绘图 的 程序 见 程序 10. 4。 


1. 虚拟 变量 的 简 例 
程序 10.4: 虚拟 变量 。 


DATA score; 

INEUT chi math eng; 

LABLE chi- ' 语 文成 绩 ' math- ' 数 学 成 绩 ' eng- ' 英 语 成 绩 ' schi= ' 全 班 语文 总 分 '; 
cards; 

80 75 95 

70 85 92 

5 x 94 


If chi» 801math> 85 then dunmmy- 1; 


else dunmmy- 0; 
list; /< 列 出 数据 * / 
PROC PRINT; /* 显示 统计 结果 * / 


πως ο ο 
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Y sas - [输出 - 《无 标题 》 PROC GLM 正在 运行 ] 


Xsa 


10201000000 
18456000000 
27225000000 
43681000000 
68686000000 


PREDICT 
1050.58 


» 数据 分 析 之 二 


RESIDUAL 
-50.5832 
85.3885 
-65.3857 
37.8319 
-7.2515 


图 10.9 虚拟 变量 的 分 析 


2. 虚拟 变量 的 输出 结果 


看 程序 10.4 中 IF 语句 的 另 一 种 等 效 表 示 法 : 


IF chi GT 85 CR Math GT 75 THEN Dumye-1; 


ELSE  Dunmye0; 


这 是 设置 虚拟 变量 DUMMY .表示 当 语 文成 绩 大 于 85 分 ,或 者 数学 成 绩 大 村 


时 ,虚拟 变量 Dummy 值 为 1, 否则 为 0。 


3. 关于 图 10. 9 中 各 参数 的 分 析 .请 参考 图 10. 8 的 结果 分 析 。 


5 A 


1. GLM 过 程 有 哪些 功能 ? 


10 


2. 从 图 10. 10 和 图 10. 11 看 ,有 无 必要 创建 Xx*X 项 ? 
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Τ 


σι 
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[输出 - (无 标题 PROC PRINT 正在 


Dependent Varisble: y 


Sum of 
Squares Mean Square F Value 


15608.988 7804.494 
1450000.000 


Error 


oF 
Model 2 1434981.012 717185.508 81.90 
2 
4 


Corrected Total 


R-Squere Coeff Var Root MSE y Mean 
0.983235 5.954124 88.34305 1650.000 


oF Type 1 SS Mean Square — F Value 


1431292.927 141292. 183.39 
3038.085 3098.085 0.40 


Type III SS Mean Square — F Value 


9147.121562 9147.121562 1.17 
3098.085090 9098095090 0:40 


Standard 
Parameter Estimate. Error t Velue — Pr» Itl 


Intercept 388.4528270 431.0692705 0.90 0.4626 
x 0.0056449 0.0052142 1:08 0:8821 
Xsa 0:0000000 0:0000000 0:63 0:5930 


[Bst e.. ”上 日 志 - 《无 标题 ) | 因 程 序 编辑 器 - 程 ， 


图 10.10 含有 X*xX 项 的 回归 结果 


Y sas - [输出 - 〈 无 标题 )》 PROC PRINT 正在 运行 ] 
文件 (E) 编辑 (E) 查看 (V) 工具 (D 解决 方案 (3) SOW ΜΑΧΗ) 
Jv σ]]Ώω αι Sar teol 


The GLM Procedure 


[Dependent Variable: y 


Sum of 
Squares Mean Square F Value 


Model 1431292.927  1431292.927 229.58. 
Error 18707.073 6235.691 
Corrected Total 1450000.000 


R-Sauare y Mean 
0.987099 78.98639 1650.000 


Type ISS Mean Square — F Value 
1431292.927 Ι491292.93;᾽ 229.53 


DF — Type III SS Mean Square — F Value 
1431282.92? — 1491292.927 229.68 


Standard 
Parameter Est imate Error tVYalue — Pr» Itl 


Intercept 127.4426720 106.5209821 1.20 0.3175 
x 0.0089038 0.0005877 15.15 0.0006 
] 


jæ 


diu. Ga.. DES- 无 标题 〉 | 因 程序 编辑 器 m... | 


i RT. 


10.11 模型 中 删除 X* X 项 后 的 回归 输出 


第 118€ aater ] 
采用 REG 过 程 进行 多 元 线性 回归 分 析 


在 大 、 中 .小 型 机 的 SAS 系统 中 ,REG、GLM、RSQUARE STEPWISE 等 各 个 回归 
过 程 都 是 分 别 独立 的 。 但 微型 计算 机 SAS 系统 的 REG 过程 中 则 包含 了 RSQUARE H 
定 法 )、STEPWISE( 逐 步 回 归 法 )、Forward Selection( 向 前 选择 法 )、Backward dimination 
( 自 后 淘汰 法 ) 等 回归 法 ;而 GLM 过 程 是 一 个 单独 存在 的 回归 过 程 。 

本 章 介绍 REG 过 程 的 回归 应 用 。 

通常 由 一 组 自 变量 可 组 建 多 个 回归 模型 。 例 如 ,有 3 个 自 变量 ΧΙ.Χ2.Χ3 和 一 个 因 
变量 Y, 则 可 组 建 (23 一 1 王 )7 种 回归 模型 ΗΠ. 

Y XE X1.X2.X3 

Y WMUXI1.X2][X1. X3][X2.X3] 

Y XEI[X1.X2.X3] 

又 例如 ,有 10 个 自 变量 X1— X10 和 一 个 因 变 量 时 , 则 可 组 建 2* 一 1 二 1023 个 回归 
模型 。 

因此 , 遇 到 多 个 自 变量 时 ,就 应 考虑 哪些 变量 放 在 回归 模型 中 为 宜 。 

在 实际 工作 中 ,最 常用 的 回归 法 有 : 逐步 回归 法 、 向 前 选择 法 . 自 后 淘汰 法 以 及 判定 
法 。 究 竞选 择 哪 一 种 回归 法 ,一 般 应 根据 抽样 的 数据 类 型 来 选择 其 中 的 一 些 自 变 量 及 因 
变量 ,进而 预测 出 最 佳 的 回归 模型 。 

而 且 ,在 逐步 回归 分 析 的 程序 中 .一般 应 利用 两 种 回归 命令 .一 种 是 RSQUARE, 另 
一 种 是 STEPWISE。 

下 面 以 程序 11. 1 中 的 数据 及 数据 定义 语句 为 例 , 分 别 采 用 对 话 框 ( 见 11. 1 节 ) 和 命 
令 ( 见 11. 3 节 ) 进 行 回归 分 析 。 

程序 11.1:《 社 区 服务 研究 》 数 据 及 数据 定义 语句 , 见 图 11.1. 

本 例 的 数据 有 474 个 观察 值 (人 ), 因 变量 为 vi( 家 庭 月 收入 ); 自 变量 为 v7f( 全 家 总 
人 口 ) 和 wk( 具 体 工 作 ) 等 。 
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3 ή 15 1 5 545 


OC REG 正在 
运行 LELICGNE DCIONE TI] 
40g 


文件 EE) REO FEV IRV 
|Dz E 3a x8umo»g sg 


CASEID 3-5 
15-16 vəf 1 


wk HET 

JEj or νθε ILIRA? ντε: 
TIRU VIZ DÆM 

RKA W 月 开支 : 元 ; 


ARDS;  /INFILE 'a:VS4T4. dat’ +/ 

[11001111522305281000171335001108050101010101020044322212000100000100000003000030010013343000022520 

[10026925023054230111300250010000402020100010203111111302000100010200000000000040010003332220002122 

[10037 4156130644110 010208110443311000100000000000002050020100002320200660000 

[100426 1462204502 11300010000010410000000001010000112 

ΠΠ 61304501 203322120001 00000102000001020630003002113 

11005481312306302 z 0000000000000003000000 

[| 10075523623043521 511224232212000000010102041003081 130000002323212 

[10086922643043621 '200222222222001 000001 100060001 

11009752442102: )000000203003010000211202: 

11010: 010003010506090103064010223211 

110115624223053 20000000100060001 020610107; 
000033100000001 030620002: 2 

00000000000000000307 1030000003102222222322 


29015001000070262 
00170040001008020001000001 
000:33002000100000000006CCC 1G 
0017005001001 101010100020102 


21022325211200130000010000001000003100003113 2 
113000300000103070000000010000031213000000010 
| LD1717138230532210013002800 100006000000000102 1212000000000100000003060030000012130020200020 
11018741522305402101 13002601 100002010200020106001222212120001 0001 1 102090001020340000002112000000100 
1101955220330414200013061501000808000000000000002303332000001 00001000000003000010000003200000000000 
11020602162308412000 .01100000000000000000000000000000000000000 
[102157252330645210017505000100008020002010102082202222110000000000 


[110150915222031521011400200010000000 
[1101580142230530200016005000100062€1c 


图 11.1 程序 11.1 中 的 (社区 服务 研究 ) 数 据 及 数据 定义 语句 


11.1 用 Analyst 对 笑 框 做 多 元 线性 回归 


1. Analyst( 分 析 家 ) 的 操作 步骤 


CD 选择 图 11.1( 第 1 行 的 SAS 主 菜 单 ) 中 的 “运行 ”~ 提交 
令 .运行 程序 11. 1 产生 SAS 数据 集 sql4。 
(2) 选择 SAS 主 菜单 中 的 “解决 方案 ”一 分析” 一 "分析 家 ”(Solutions 


Analyst) 命 令 ,如 图 11.2 所 示 。 


文件 他) ARE EBV IAW dir z 


i Dam Ὁ 
κα Em. | E 开发 编程 人 
[ΟΝ D 3-5 AGE 6-7 ge μάς, s zi 
UT 14 1-2 CASPID 5-5 AGE 6-7 SEX 8 ed bond *| toaren 
vaf 15-16 V9f YIOA 18 V108 T 
ο. ον quum 
Weder IEEE KIRSA 
rn $ 
PEIA vie e EEEE DETI 
BEA OD 
a $ : USE OD 
WS, JANE ,axvstrd_datr +/ 
ντο 16253005810001 153500110900 项 目 管理 中) 
ο 3054250111500 ος RES 


S14 1501 3004411001606 BRA OD 
Te fS] SERRE. 


IH (31971 ZER HE CIO 


1000006, 
302010 

036, 

O50 100066 


(a) Analyst 的 菜单 位 置 
11.2 打开 SAS 工作 区 的 文件 Work. sq14 


Č” (或 Run 一 Submit) fir 


一 Analysis 一 


元 线性 回归 分 析 239 


REED: 1 
RARUD: eem gero 


(b) Work.sq14 工 作文 件 
11.2 (98) 


(3) 选择 “分 析 家 ”一 “文件 ”一 “ 按 SAS 文件 名 称 打 开 ” 一 Work( 或 Analyst 一 File 一 
Open By SAS Name-- Work) fi 4 HEA BI 11. 2(b)。 

(4) 选择 文件 名 sql4 后 单 击 “确定 ”按钮 ,SAS 自动 展示 Work. sq14 数据 集 的 内 容 ， 
见 图 11. 3。 


iliNew Project zi 
D 9414 Analysis 
ESq14 


moemoweaneoenpaocecag j 


11.3 Work. sq14 文件 的 内 容 ( 部 分 ) 


(5) 选择 “统计 ”一 “回归 ”( 或 Statistics 一 Regression) 命 令 , 展 示 图 11.4. 

(6) 选择 “线性 ”( 或 Linear) 命 令 . 进 入 图 11. 5 并 设置 变量 。 

(7) 单 击 Model, 进 入 图 11. 6 并 选择 逐步 回归 法 。 

(8) 单 击 图 11.6 中 的 Statistics 标签 进入 图 11.7. 并 选择 Adjusted R-square 法 。 


ο. Θδιμκσεά 


πας ες FEL IRS SRW BAV MEW WwW EAD -x 
s Er e [ὰ : ΒΕ πὶ ub 2 i k 
diNew Project 
白 扁 Sq14 Anaysis E 1 
[Esan] u z 
=i] n t * 4 D 
: n i 
Ec 1 τ 1 : 
"m H 3 t 4 
i ἃ 
ENS : 5 3 : i—31 
5 8L ἃ ἃ ; i—i 
E eH : Be 
ἃς ἃ ἃ t—34 
JE no 8 g i EN 
κ.κ: ^ Ξ : — xl 


图 11.4 Linear Regression 的 菜单 位 置 


11.6 选择 逐步 回归 法 


zm an ο ο η 


图 11.7 选择 Adjusted R-square 法 


(9) 单 击 OK 按钮 ,再 单 击 Statistics 标签 ,进入 图 11. 8 ,并 选择 平方 和 的 Type 1 I 
Type 工 等 ( 见 带 “/ ”项 ) 。 


11.8 选择 平方 和 的 类 型 I 和 工 等 


(10) 单 击 OK 按钮 ,再 单 击 Predictions ,进入 图 11. 9 ,并 选择 统计 量 , 见 带 “/ ”项 。 
(11) 单 击 两 次 OK 按钮 ,输出 图 11. 10 的 结果 。 


2. 回归 分 析 


11.10 的 回归 分 析 见 下 面 的 11.3 节 。 
下 一 节 采 用 程序 语句 对 程序 11. 1 中 的 数据 进行 回归 分 析 。 
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δικα s d 


vartable 
Entered 
wr 

p 

En 


Variable 
Removed 


Huber 
Lebel 


总 人 多 
cus 
Jordan 


Vars da Ra 


Parilel Wedel 
το R-Squnre 


0. 0837 


ος) 


14.191} 
10 184 


Fo vstuo Fro 
4$ <, 0001 


ανα FTD Ὁ, 
09:58 Friday, June 14, 2002 3 
The REG Procedure 

Model; MODALI 
Deperóont warinbla: Yi 月 收入 :元 


[UU 


δόντος 


οἱ 
Corrected Totat 


Latet 


Analysis of Yariance 


Suv of 
Squares 


2741025 
18884333 
21523338 


Root msa 
Depeadent Mean 
Corf Yar 


200. 44808 
379. 81357 
ΕΕ] 


Paraostsr astiaates 


Standard 
Brror 1 Valve 


32. 30933 
4.29293 
ron 
[Xm 


4.16 
EE 
pen 
DE 


Wenn 
Square 


913675 
40179 


R-Square 
Ai Sq 


κε» Iul 


EI 
<, 0001 
0: 0007 
5. 0057 


πνεῖ 


22.14 


Type 0 $8 


63380256 
1310025 
621332 
ΠΠ 


[EN 
<. om 


Type tt $8 


695032 
1268047 
455339 


图 11. 10 采用 对 话 框 法 输出 的 结果 示意 图 
112 R&G ZAIE AIAR 


本 节 采 用 程序 11. 2 最 后 5 行 语句 ,替代 图 11. 2 至 图 11. 9 各 个 对 话 框 的 操作 ,不 但 同 


样 能 产生 图 11. 10 的 回归 输出 ,而 且 统计 效果 更 佳 ( 详 见 图 11. 12 至 图 11. 25 所 示 的 结果 ) 。 
程序 11. 2 : 


DATA SQl4; 


gs 未 用 FE 过 程 进行 多 元 线性 回归 分 析 
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INFIIE'd: NusersasVS474 .dat.' ; 

INEUT Id 1- 2 CASEID 3- 5 AGE 6- 7 SEX 8 edc 9 wk 10 fm 11 V6f 12 ΝΤΕ 13- 14 
v8f 15- 16 V9f 17 V10A 18 V10B 19 V10C 20 V10D 21 vi 22- 24 vo 25- 27; 
oi- vo/vi; VIO- VI- VO; AV8E- V8E/V7F;av- vi/vf; 

LABEL SEX- ' 户 主 性 别 ' edc- "文化 程度 ' wk- ' 具 体 工 作 ' το- ' 区 与 街道 代号 ' 
CASEID- ' 问 卷 号 ' fm- "ΝΑ" vet- ' 几 代 人 ? ' vit- ' 总 人 数 ' V8 三 ' 居 住 面积 ' 
vo£- ' 住 房 类 型 ' vion- "煤气 ' vioe- ' 卫 生 间 ' V10C- "IE ^C voe ' 自 来 水 ' 
Vi- HIA : 265 ' Ve=' 月 开支 :元 '; 

PROC FORMAT; 

PROC CORR; 

VAR VI ντε WK EDC SEX V8F; 
PROC REG ; 
MODEL VI= V7F WK EDC SEX V8F /METHOD- STEPWI SE SIE= .05 SLS= .05; 
MODEL VI= V7F WK EDC SEX V8E/METHOD- F SIE- .05; 
MODEL VI= V7F WK EDC SEX V8E/METHOD- B SIE- .05; 

RUN; 


运行 程序 11. 2 将 产生 下 面 图 11. 12 至 图 11. 22 所 示 的 结果 。 
程序 11. 2 中 PROC REG 过 程 以 下 各 条 命令 及 其 格式 详 见 11.2.1 节 。 


1121 REG 程 序 中 的 语句 及 任 选项 
REG 程序 中 的 全 部 语句 及 其 任 选项 (关键 词 ) ,如 图 11. 11 所 示 。 


PROC REG DATA= 数 据 集 名 0UTEST= 名 2 0UTSSCP= 名 3  NOPRINT SIMPLE 
USSCP ALL COUOUT CORR SINGULAR=N; 

MODEL 变量 = 回归 自 变量 v1 v2 ... 

METHOD=NONE | FORWARD | BACKWARD | STEPWI SE | MAXR | MINR | RSQUARE 

SLEntry= 值 1 SLStay= 值 2 SELECT=---  INCLUDE-... START=M 
STOP=N NOPRINT NOINT ALL  XPX I SS1 552 

STB P R CLI CLM  UIF  COUB CoRRB COLLIN 
COLLINOINT TOL DW INFLUENCE PARTIAL DETAILS 
SIGAM= 值 RDJRSQ AIC BIC CP GMSEP JP MSE PC 
RMSE SBC SP SSE B; 


PRINT ALL ΧΡᾺ I 551 SS2 STB TOL UIF COUB CORRB COLLIN 
COLLINOINT P R CLM CLI DW INFLUENCE PARTIAL ANOVA ; 
OUTPUT ”0UT= 数 据 集 名  PREDICTED- — RESIDURL- L95M= 值 ”U95M= 值 


L95= 值 ση ος STDI= 值 STDR= 值 STUDENT= 值 


C00KD= 值 H= PRESS= RSTUDENT-[É  DFFITS-[É  COURATIO-[É; 
TEST 式 1, 式 2,--- 式 k /PRINT; 
MTESTIMTEST 1,2,---k/PRINT CANPRINT DETAILS; 
BY 变量 表 ; 


11.11 Regression 的 命令 格式 ( 见 A 盘 的 S14.0 文件 ) 


1122 REG 程 序 中 主要 语句 及 关键 词 的 注解 


1. 下 面 是 写 在 “PROC REG” 后 面 的 关键 词 
(D DATA — is E. 此 项 不 可 省 ( 见 图 11. 11)。 
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(2? OUTEST— A Μι. 存储 输出 的 估计 参数 ,可 省 。 
(3) OUTSSCP 王 名 称 : 存储 输出 的 SSCP 矩阵 ,可 省 。 
OD CORR: 要 求 显示 相关 系数 。 


2. 写 在 MODEL 之 后 的 关键 词 


(D Dependents: 指定 回归 模型 中 的 因 变 量 名 。 

(2) Regressors: 指定 回归 模型 中 的 自 变量 名 。 

(3) /METHOD — ;. 指定 回归 分 析 的 某 种 方法 。 其 中 ,NONE 为 取消 各 种 回归 ; 
MAXR 要 求 按 照 最 大 R? 改 善 技术 来 选取 最 佳 模 型 。 

(D SLENTRY =a 值 : 默认 为 a 二 0.05。 它 是 变量 入 选 时 的 显著 性 水 平 : 主要 用 于 
向 前 (F) 和 逐步 回归 中 。 

G) SLSTA Y =a ff. 默认 为 0.05。 它 是 变量 被 淘汰 时 的 显著 性 水 平 ;主要 用 于 向 
后 (B) 和 逐步 回归 中 。 

(6) SELECT 一 自 变 量 名 。 

(7) START — fü; 指定 最 少 估计 多 少 个 自 变 量 。 

(8) STOP— fü. 指定 最 多 估计 多 少 个 自 变 量 。 

(9) Τε 显示 CXX)-: 和 矩阵 。 若 选择 I. Up TEPS 11. 13 中 ,将 显示 “XX Inverse,B,SSE” 标 题 。 

(100 SS1: 显示 TYPE I SS 的 顺序 平方 和 , 详 见 图 11. 12 中 的 Parameter 
Estimates 栏目 下 面 的 981 值 (806951)。 

(1D 552. 显示 模型 参数 偏 平 方 和 的 估计 值 , 即 TYPE Il 55. ILE 11. 12 rh 
Parameter Estimates 栏目 下 面 的 SS2 值 (806951)。 


Dep Variable: VI 
Analysis of Variance 
Sum of Mean 
Source DE Squares Square F Value  Prob»F 
Model 1 806951.17003 806951.17003 22.403 0.0001 
Error 598 21462851.870 35891.05664 
C Total 599 22269803.040 
189.44935 R-square 0.0362 
373. 46000 Adj R-8q 0.0346 
-ν. 50-72815 
加 Parameter Estimates 
Parameter Standard T for H0: 
Variable DE Estimate Error Parameter=0 Prob > |T| 
INTERCEP 1 298.360128 17.62584240 16.927 0.0001 
ντε 1 17.237920 3. 63541804 4.742 0.0001 
551 552 STB 
Standardized 
Variable DE Type I 55 Type II ss 
INTERCEP 1 83683423 10284142 
806951 806951 0.19035550 


ντε n 
|G 方差 估计 


cov INTERCEP ντε 
INTERCEP 310.67032046 -57.57885831 
ντε -57. 57885831. 13.216264342 
Durbin-Watson D .949 
(For Number of Obs.) 
Ordai A á 


11.12 MODEL Vi- v7f 的 回归 分 析 示 意图 


zm nm FE 过 程 进行 多 元 线性 回归 分 村 
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加 Model Crossproduces X'X XY Y'Y 


ντε 

2614 Intercept 
4104 总 人 数 
8005 ”有 具体 工作 
3037 


(9 Model Crossproducts X'X X'Y Y'Y 


ντ 

4076 Intercept 
3037 总 人 数 
9648 ”具体 工作 
3226 


图 x'X Inverse, Parameter Estimates, and SSE 


ντε 


6326409 -.0011125116 
.00036845886 8.8635705E-6 
35705E-6 .00034753916 
17.31279122 2.9356835444 
Analysis of Variance 


WK 


ex INTERCEP 
INTERCEP 600 
ΝΤΕ 2614 1 
[σε 1854 
Ντ 224076 102 
x WK 
INTERCEP 1854 22. 
er 8008 102 
uk 8608 69: 
[| 699648 10595 
INVERSE INTERCEP 
INTERCEP .01221719955 -.001 
IF -.0016326409 
ux -.0011125116 8.86 
Ντ 288.96267743 
Iu] 
Sum of 
Source DF Squares 
Model 2 831749.06022 
Error 597 21438053.980 
C Total 599 22269803.040 
Root MSE 189.49839 
Dep Mean 373.46000 
c.v. 50.74128 


Mean 
Square 
415874.53011 
35909.63816 


R-Square 
Adj R-Sq 


F Value 
11.581 


0.0373 
0.0341 


vI 


288.96267743 
17.31279122 
2.9356835444 
21438053.98 


Prob»F 
0.0001 


ΕΗ 11.13 Hi MODEL Vi 


(12) STB: 显示 标准 化 的 回归 系数 ,其 值 = 估计 的 回归 系数 二 样本 的 标准 误差 二 


0. 19035550, 


(13) COVB; EIR IAEE, AEE = XK) * MSE。 其 中 .MSE 为 均 
方 误差 。 详 见 图 11.12 的 Covariance Of Estimates 栏 或 COVB 栏 ( 矩 阵 ) 。 
(14) Residual: 表示 每 个 观察 值 分 析 后 的 残 差 。 其 值 = 实际 值 一 期 望 值 。 参 阅 


图 11.1505. 


(15) CLM: 显示 每 一 个 因 变 量 Y 的 期 望 值 的 9: 


LOWER 95% MEAN 与 UPPER 95% MEAN 两 种 数值 。 


[Prog 
File Edit View Tools 


i 


— v7f wk/all dw influence 语句 产生 的 回归 图 ( 待 续 ) 


上 下 限 置信 和 度 。 详 见 图 11. 14 的 


Predict Std Err Lower95* Upper95* Lower95* 
Value Predict 
381.4 8.928 
375.5 13.536 


Mean Mean Predict 
363.9 398.9 8.8147 
348.9 402.1 2.4079 


333.4 377.8 -17.2541 


Upper95: 
Predict 
754.0 
748.6 


728.4 


11.14 由 MODEL Vi 一 v7f wk/all dw influence 语句 产生 的 回归 图 ( 续 1) 


ΟΤΕ: At left side. 


[C:\Program Files\si| 
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(16) CLI: 显示 各 个 观察 值 的 95% 上限 与 95%% 下 限 置信 和 度 , 详 见 图 11.14. 

(17) DW; 显示 Durbin-Watson D 统计 量 , 供 检验 是 否 有 第 一 阶 自我 相关 。 它 适合 
时 序 分 析 ,特别 适合 于 前 后 期 有 相互 影响 的 数据 。 可 参阅 图 11. 12 中 的 Durbin-Watson 
D 行 上 的 相应 值 ,DW 一 1.949, 而 且 自 我 相关 系数 yY 一 0.023 ,小 而 合格 。 说 明 两 点 间 的 残 


差 互 为 独立 。 


名 sar. 


[Sum of Residuals 


ameter Estimates 


Residual 
1.752 
-0.400 
1.268 
0.657 
0.128 


1.0086 


-2.16005E-11 


Parameter Standard T for HO: 
Variable DF Estimate Error Parameter=0 Prob > |T] 
INTERCEP 1 280.962677 20. 9455971 13.796 0.0001 
ντε 1 17.312791  3.63747498 4.760 0.0001 
WK 1 2.935684  3.53270511 0.831 0.4063 
Standardized 
Variable DF Typə I $5 Type II 55 Estimate Tolerance 
INTERCED 1 83603423 6834580 — 0.00000000 ] 
ντε 工 006951 013477  0.19110229 0. 9993649 
WK 1 24798 24798 — 0.033379)0 — 0.99938649 
Variance 
Variable DE Inflation 
INTERCEP 1 0.00000000 
vir 1 1.00061389 
wK 1 1. 00061389 
(E Covariance of Estimates 
CovB INTERCEP ντε WK 
INTERCEP 438. 71521497 -58. 62754219 -39.94988972 
ντε -58. 62754219 13.231224211 -31828760979 
wK -39. 94900972 -31020760979 12. 400005403 
@ correlation of Estimates 
CORRE INTERCEP ντε "κ 
INTERCEP 1.0000 -0.7695 -0.5399 
ντε 0.7695 1.0000 0.0248 
Σ 0.0248 .0000 


21438053.980 


[Sum of Squared Residuals 
Predicted Resid SS (Press) 21796085.255 


(b) Cook 由 离 和 残 养分 件 483) 


图 11.15 
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(18) INFLUENCE; 要 求 SAS 对 每 个 观察 值 的 估计 值 与 预测 值 作 更 详细 的 相互 影 
响 的 分 析 。 

(19) ALL: ÆR SAS 分 析 以 下 参数 : 

ΧΡΧ.851.552.9ΤΡ.ΤΟΙ,.ΟΟΥΒ. CORRB.SEQB.P.R.CLM.CLI. SPEC. ACOV. 
PCORRI.PCORR2.SCORRI.SCORR2, if UWLÉ 11.13 至 图 11. 15 所 示 的 结果 。 

(200 PARTIAL: 要 求 SAS 画 出 图 11. 16 所 示 的 每 个 回归 自 变量 的 “ 偏 回归 残 
差 图 ”。 


Partial Regression Residual Plot 


+ 
+ +++ 十 ++ +++++ + + 

十 “十 二 十。 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 

十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 

+ 十 十 ++++++ 十 + 十 十 十 二 十 


图 14-1.3 偏 回 归 残 差分 析 示 意图 
Partial Regression Residual Plot 


++ + + 二 十 
十 A++ 二 ++ 十 +++ 
+ ++ ++ ++ +H ΕΕ 十 十 ++ 
+ + ++ ++ ++ ++ +t +t tt 十 十 十 
++ + ++ ++ ++++++++++ 二 十 
++ ++ ++ ++ ++ 十 + 十 + 十 十 十 十 
++ ++ ++ ttt 十 十 十 


11.16 偏 回归 残 差分 析 


(21) P—PRED:; 要 求 显 示 标 题 PRED 表示 “预测 值 ”。 

(22) L95=L95: 显示 结果 中 各 个 观察 值 下 限 的 95%% 置 信 区 间 。 
U95—U95; 显示 各 个 观察 值 上 限 的 95% 置 信 区 间 。 

(23) R 王 RESID: 显示 残 差 值 。 

(24) COOKD— COOKD: 显示 COOK {8 Ὁ 统计 量 , 见 图 11.15(b) 。 

(25) HSH: 显示 X; X0 7! * X fË. ALES 11.13 第 1 个 小 标题 。 
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19 FREG 程 序 进 一 步 实 例 


本 节 通 过 程序 11.2 的 例子 ,深入 剖析 逐步 回归 分 析 法 .向 前 选择 变量 法 和 自 后 淘汰 
变量 法 的 执行 步骤 及 输出 结果 。 

程序 11. 3( 如 图 11. 17 所 示 ) : 

图 11. 17( 程 序 11. 3) 前 面 的 DATA INFILE INPUT 等 语句 用 以 定义 数据 的 来 源 、 
数据 的 格式 和 栏目 位 置 ,IF…THEN… 语 句 用 以 排除 缺少 值 ,LABEL 语句 用 以 定义 变量 
标签 ,VALUE 语句 用 以 定义 数值 标签 。 


Og anl: 90 
ERME TAE (居委会 ) << 社 区 服务 研究 >> 数 据 分 析 */; 


TITLE ' 北 京 市 四 区 13 个 衡 道 ( 居 委 会 ) << 社 区 服务 研究 >> 数 据 分 析 ' : 
DATA SQ; 
INFILE 'e:\sasx\sas\usesas\S.dat'; 
INPUT Id 1-2 CASEID 3-5 AGE 6-7 SEX 8 
edc 9 wk 10 fm 11 V6f 12 V7f 13-14 
vaf 15-16 V9f 17 V10A 18 V10B 19 ViOC 20 ViOD 21 vi 22-24 vo 25-27; 
IF AGE-0|SEX-0|FM-0|EDC-0|WK-0|V6F-0|V7F-0|VBF-0|V9F-0 THEN DELETE; 
IF vi-0|vo-0|v7f-0|v8f-0 then delete; 
AVe-vi/vo; VIO-VI-VO; AVBSF-VSF/V7F; 
LABEL SEX=' 户 主 性 别 ' edc=' 文 化 程度 ， wk=' 具体 工作 ' 
ID= ' 区 与 衔 道 代号 ， CASEID=' 问卷 号 ' 
fm=' ΜΗ) vete 几 代 入 3?! vore ΕΛΑ: V8f=' 居 住 面 积 vore 住房 美 型 , 
V10A= ' 煤 气 ，V10B=' D&B]! νιος-'Β8π,, viod=' 自来水 ' 
Vi=' 月 收入 :元 Vo=' 月 开支 : πι; 


VAR VI V7F WK EDC SEX V8F; 


MODEL VI- V7F WK EDC SEX V8F /METHOD-STEPWISE SLE-.05 SLS-.05; 
MODEL VI= V7F WK EDC SEX V8F/METHOD=F SLE-.05; 
MODEL VI- V7F WK EDC SEX V8F/METHOD-B SLE-.05; 


11.17. 逐步 回归 分 析 法 、 向 前 选择 变量 法 和 自 后 淘汰 变量 法 (程序 11.3) 


程序 11. 3 的 PROC CORR 语句 用 以 计算 相关 矩阵。 程序 11. 3 的 最 后 语句 则 是 调 
用 “PROC REG;” 过 程 分 别 作 逐步 回归 、 向 前 选择 变量 以 及 自 后 淘汰 变量 的 回归 分 析 。 

运行 程序 11. 3 产生 图 11. 18 至 图 11. 22 所 示 的 结果 。 

下 面 将 程序 11. 3 中 PROC CORR 后 面 七 行 语句 的 执行 结果 ,以 图 形 方式 逐一 加 以 
说 明 。 


1. 程序 11.3 的 PROC CORR 主语 名 


由 于 该 语句 后 面 的 VAR 关键 词 中 指明 了 当前 月 收入 (VD 、 家 庭 总 人 数 (V7F) ,性 别 
(SEX) KAIKE EDO) 、 工 种 (WK) 和 居住 面积 (V8F) 共 6 个 变量 ,所 以 程序 运行 到 该 


语句 时 ,产生 了 如 图 11. 18(a) 所 示 的 相关 分 析 示 意图 。 图 11. 18(a) 的 上 半 图 为 默认 的 而 
且 是 最 基本 的 统计 量 , 即 : 观察 值 N、 各 变量 的 均值 Mean ,标准 偏差 Std Dev、 各 变量 值 之 


和 Sum 及 各 变量 的 最 小 值 最 大 值 。 
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北京 市 四 区 13 个 街道 (居委会 ) << 社 区 服务 研究 >> 数 据 分 析 


ariable N Mean Std Dev Sum Minimum 
I 474 408.10127 176.67450 193440 50.00000 
κ. 474 29270 1.78798 2030 1.00000 
με 474 3.44937 1.99962 1635 1.00000 
DC 474 3.42616 1.20737 1624 1.00000 
prr 474 1.51899 0.50017 720.00000 1.00000 
BF 474 30.50633 13.64984 14460 7.00000 

Correlation Coefficients / Prob > |R| under Ho: Rho-0 / 
VI ντε WK EDC SEX 
VI 1.00000 0.32072 -0.13462 0.06779 -0.04010 
0.0000 0.0001 0.0033 0.1406 0.3835 
ντε 0.32072 1.00000 -0.00900 -0.12960 0.07909 
0.0001 0.0000 0.8451 0.0047 0.0854 
WE -0.13462 -0.00900 1.00000 0.08688 0.08129 
0.0033 0.8451 0.0000 0.0531 0.0771 
EDC 0.06779 -0.12960 0.08888 1.00000 -0.18004 
0.1406 0.0047 0.0531 0.0000 n.non1 
SEX -0.04010 0.07909 0.08129 -0.18004 1.00000 
0.3838 0.0854 0.0771 0.0001 0.0000 
Ver 0.34734 0.42621 0.08568 0.10861 -0.04662 
0.0001 0.0001 0.0623 0.0180 0.3111 


74 


Maximum 
999 
12.00000 
6.00000 
5.00000 
2.00000 
99.00000 


N= 474 

ver 
0.34734 
0.0001 
0.42621 
0.0001 
0.08568 
0.0623 
0.10861 
0.0180 
-0.04662 
0.3111 
1.00000 
0.0000 


(a) 18132 I VT HC S OC 42 HT 


Stepwise Procedure for Dependent Variable VI 


Step 1 


Variable V8F Entered 


R-square 


DE sux of squarcc 


Regression 1 
Error 472 
Total 473 


Parameter 
Variable Estimate 
INTERCEP 270. 95216366 
var 49576223 


Bounds on condition number: 


Step 2 


1701943. 1079900 
12932923. 031251 
14754165. 139241. 


Variable V7F Entered 


Standard 
Error 


1791242. 1079900 
27505. 19286282 


= 0.12064631 c(p) = 36. 


Moan Squaro 5 
64.76 


Type II 


Sum of Squares e 


18. 66802449 5794536.2728572 .66 


0.55867225 
1.0000, 


R-square 


nr Sum of Squares 


Regression 2 
Error 471 
Total 273 


Paraneter 
Variable Estimate 
INTERCER 217. 16589213 
ντε 20. 85096383 
ΥΕ 3.33166740 
Bounds on condition nunbe 


Step 3 


2313230.2802475 
12444934. 858393 
14754165. 139241 


Variable WK Entered 


Standard 

x 
21.83679886 
4. 62089001 
0. 60528561 
1.2220, 


R-square 


Sum of Squares 


Regression 
Error 


2675446. 7894310 
12087718. 349803 


17581242. 1073900 .76 


1.0000 
0.15708509 17 


Mean Square 


1159615.1401237 
25422.36700423 


Type II 

Sum of Squares e 

2613226.2133228 98.90 

537388.17225751 20.36 

900522.96043380 30.30 
4.9679 


0.18127993 c(p) 


Mean Square 


595145. 92981034 
25718.54968045 


(b) 逐步 回归 法 的 输出 结果 


图 11.18 


B4884924 
Drob>F 
0. 0001 


Prob>F 
0.0001 
0.0001 


.84597605 


Preb>F 
0. 0001 


Preb>E 
0.0001 
0.0001 
0.0001 


.90036641 


Prob» 
0.0001 
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图 11. 18 Ca» ff] FERH 6 个 变量 的 相关 和 抑 阵 ,每 对 变量 有 两 行 系数 ,例如 ,Vi 与 
V7f 该 对 变量 的 相关 系数 为 0.32072。 又 因为 0.32072 下 面 的 0. 0001<0. 05. PHH i 
入 与 家 庭 总 人 数 确 有 一 定 的 关系 。 


2. 程序 11.3 “MODEL Vi 一 V7F WK---/METHOD —STEPWISE:--"i& Έ] 


该 语句 要 求 以 Vi 为 因 变 量 , 以 V7F WK 等 5 个 变量 为 自 变 量 进行 逐步 回归 分 析 , 详 
见 图 11. 18(b)。 

(1) Step 1; 这 是 逐步 回归 的 第 1 步 , 第 1 个 进入 回归 模型 的 变量 是 V8F( 居 住 面 
TO ,其 回归 平方 和 为 1781242. 10799 ,总 平方 和 SST — 14764165. 139241,F fi — 64. 76. 
QE: F WÉ = E Hy MSR + iR 22 35] 7; MSE = 1781242. 10799 — 27506. 19286282 一 
64. 76). 

因为 P ffi —0.0001-—a—0. 05. Pdl, V8F 变量 人选 到 模型 中 。 或 说 Foo (1,472) 一 
3. 84.64. 76 {553. 84(Fuus 值 ) ,因此 V8F 变量 入 选 到 模型 中 。 

(2) Step 2: 这 是 逐步 回归 的 第 2 步 , 即 : 决定 第 2 个 入 选 的 自 变量 。 此 时 可 由 
TYPE Il SS 的 值 判定 在 V8F 入 选 后 , 哪 一 个 变量 对 回归 模型 的 贡献 较 大 。 显 见 , 继 
V8F 之 后 ,对 模型 贡献 较 大 的 变量 为 V7F ,而 且 其 下 值 王 20. 36, 它 大 于 Foos (1,471) = 
3. 84, 因 此 ΝΤΕ 也 应 人 选 。 另 一 方面 ,最 先 人 选 的 V8F 变量 的 TYPE Il SS 值 为 
800523. 8884398 二 537988. 1722751 ,而 且 其 F fff Jy 30. 30553. 84, 因 此 也 不 能 排除 V8F 
变量 。 换 言 之 ,第 二 个 变量 ΝΤΕ 入 选 后 不 排挤 第 一 个 变量 的 入选 。 

(3) Step 3: 如 图 11. 19 所 示 . 除 了 V8F 和 V7F 入 选 有 效 外 ,其 余 变量 中 对 模型 贡献 
稍 大 的 则 是 变量 WK, 其 TYPE II SS ffi Jy 357216. 50918355. m H. F 值 为 13. 89 二 Foos 
(1.4700 —3. 84, 因 此 WK 有 资格 人 选 。 同 时 ,第 3 个 变量 入 选 后 ,对 前 两 个 变量 的 参数 
重新 计算 之 后 , 显 见 : V8F {8 F ffi 85.05 Foo (1.4700 —3. 84, 因 此 V8F 应 继续 留 在 
模型 内 ;V7F {8 Ε 值 为 19. 18 二 Fuos(1.470) 一 3.84. 因 此 V7F 也 应 留 在 模型 中 。 

此 时 ,可 挖掘 出 最 佳 回 归 模 型 应 包含 三 个 自 变 量 : V8F.V7F 和 WK, 因此 ,回归 方程 
RH: 

VI= Bo -- &i * V7F + Rz * WK + Ba * V8F 
= 261. 735 + 19. 992 κ ΝΤΕ — 13. 812 κ WK + 3. 553 * V8F 

(4) 命令 中 原 有 5 个 自 变量 ,本 应 作 五 步 回 归 , 但 进行 到 step3 后 ,其 余 两 个 变量 
(EDC 和 SEX) 由 于 显著 性 水 平 大 于 0.05, 因 此 中 止 回归 。 

(5) 图 11. 19 的 最 后 3 行 ,有 一 个 综合 分 析 表 ,说 明 逐 步 回 归 的 结果 、 回 归 模 型 中 应 
包含 的 变量 情形 ,在 图 11. 19 中 显示 的 是 V8F,V7F 和 WK 三 个 变量 。 


3. 程序 11.3 的 “MODEL VI— V7F WK…/METHOD 王 F…” 语 名 


语句 要 求 以 VI 为 因 变 量 , 以 V7F 、WK 等 5 个 变量 为 自 变 量 ,进行 FORWARD 
ee 图 11. 20。 

向 前 选择 变量 法 的 特点 是 : 一 旦 变量 入 选 , 就 无 法 从 模型 中 删除 ,这 是 最 大 的 缺点 。 

因为 , 某 些 变量 进入 模型 后 ,通过 参数 重新 计算 ,有 可 能 对 模型 不 再 产生 显著 的 贡献 DA 
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Total 473 14764165.139241 
Parameter Standard Type II 

ariable Estimate Error Sum of Squares F Prob>F 
INTERCEP 261.73456603 24.64054752 2901803.0307146 112.83 0.0001 
7F 19.99185587 4.56475513  493307.50972048 19.18 0.0001 
K -13.81152816 3.70594705 357216.50918355 13.89 0.0002 
ΒΕ 3.55298733 0.60011515 901497. 68248007 35.05 0.0001 
Bounds on condition number: 1.2341, 10.4074 


11 variables in the model are significant at the 0.0500 level. 
o other variables met the 0.0500 significance level for entry 
into the model. 


Summary of Stepwise Procedure for Dependent Variable VI 


Variable Number Partial Model 
Step Entered Removed In R**2 R**2 C(p) F Prob»F 
Σ VBE κ 0.1206 0.1206 36.8488 64.7579 0.0001 
2 ΝΤΕ 2 0.0364 0.1571 17.8460 20.3611 0.0001 
3 WK 3 0.0242 0.1813 5.9004 13.8894 0.0002 
图 11.19 逐步 回归 法 的 输出 结果 


Step 1 


Error 
Total 


Variable 
INTERCEP 
Ver 


step 2 


Error 
Total 


Variable 
INTERCEP 
ΝΤΕ 
ver 


11. 20 为 例 。 


Regression 


Regression 


PROC 


Variable ΝΒΕ Entered 


ΡΕ 


475 
473 


Parameter 
Estimate 
270.95206366 
4.49576223 


Bounds on condition number: 


Variable V7F Entered 


ΡΕ 

2 
471 
473 


Parameter 
Estimate 
217.16589213 
20.85096383 
3.33166740 


Bounds on condition number: 


REG 


running] 


R-square = 


Sum of Squares 
EE 1781242.1079900 
12982923.031251 
14764165.139241 


Standard 
Error 
18.66802449 
0.55867225 
1.0000, 


R-square = 


Sum of Squares 
2319230.2802475 
12444934.858993 
14764165.139241 


Standard 
Error 
.83679886 
.62089001 
.60528561 
1.2220, 


Forward Selection Procedure for Dependent Variable VI 


0.12064631 Cip) 


Mean Square 


1781242.1079900 
27506.19286282 


Type II 

Sum of Squares 

5794536.2728572 

1781242.1079900 

1.0000 

0.15708509 Cp) 
Mean Square 
1159615.1401237 
26422.36700423 


Type II 

Sum of Squares 
2613226.2133228 
537988.17225751 
800523.88843980 


11.20 向 前 选择 法 的 输出 结果 


= 36.84884924 


F Prob»F 
"76 0.0001 


F Prob>F 
.66 0.0001 
.76 0.0001 


17.84597605 


Prob>F 
0.0001 


Prob»F 
0.0001 
0.0001 


Step 1: 首先 人 选 的 变量 是 V8F (居住 面积 )。 其 回归 平方 和 (SSR) 为 
1781242. 10799.F (E —64. 7 二 Fuos(1.472) 一 3. 84, 这 就 是 V8F 入 选 到 模型 的 原因 。 

Step 2: 第 2 步 其 次 人 选 的 变量 是 V7F (家 庭 总 人 数 ) ,其 下 值 一 20. 36> Foos 
(1,471) 一 3. 84, 也 令 人 满意 。 
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Step 3: 如 图 11.21 所 示 ,第 3 步 和 人 选 的 变量 是 WK CT RIO ΒΕ (Ei — 13. 89 Fo, ος 


(1,470) 一 3. 84, 该 变量 WK 也 应 该 入 选 。 同 时 ,前 两 步 和 信 选 的 变量 ,其 下 值 保 持 大 于 
3. 84, 因 此 3 个 变量 都 有 资格 保持 留 在 模型 中 。 


Step 3 Variable WK Entered R-square = 0.18127993  C(p) = 5.90036641 
ΡΕ Sum of Squares Mean Square F — Prob»F 
Regression 3 2676446.7894310 892148.92981034 34.69 0.0001 
Error 470 12087718.349809 25718.54968045 
Total 473 14764165. 139241 
Parameter Standard Type II 
[Variable Estimate Error Sum of Squares F Prob>F 
IINTERCEP 261.73456603 24.64054752 2901803.0307146 112.83 0.0001 
ΝΤΕ 19. 99185587 4. 56475513. 493307.50972048 19.18 0.0001 
CES -13.81152816 3.70594705 357216.50918355 13.89 0.0002 
[vag 3.55298733 0.60011515 901497.68248007 35.05 0.0001 
Bounds on condition number: 1.2341, 10.4074 


Νο other variables met the 0.0500 significance level for entry 
linto the model. 


Summary of Forward Selection Procedure for Dependent Variable VI 
Variable Number Partial Model 


Step Entered In R**2 R**2 CCP) F Prob>F 
1 v8F pi 0.1206 0.1206 36.8488 64.7579 0.0001 
2 ΝΤΕ 2 0.0364 0.1571 17.8460 20.3611 0.0001 
3 WK 3 0.0242 0.1813 5.9004 13.8894 0.0002 


11.21 向 前 选择 法 的 输出 结果 ( 续 ) 


由 于 回归 进入 第 3 步 后 ,其 他 变量 入 选 时 的 显著 性 水 平均 达到 0. 05, 所 以 回归 中 
止 。 这 时 ,在 模型 中 的 变量 有 V8F,V7F 和 WK( 见 图 11. 21 的 最 后 结论 )。 
回归 方程 式 与 逐步 回归 中 的 方程 式 完全 一 样 , 即 : 
VI=261.735 十 19. 992 * V7F 一 13. 812WK 十 3. 553 κ V8F 
注意 : 由 于 回归 进行 到 第 3 步 便 中 止 . 因 此 本 例 未 遇 到 向 前 选择 法 的 缺点 。 即 : 看 
不 到 模型 中 的 该 排除 而 未 排除 的 变量 。 


4. 程序 11.3 “MODEL VI— ΝΤΕ WK---/METHOD-— B" i& f] 


这 是 自 后 淘汰 变量 法 的 语句 ,该 语句 产生 图 11. 22 所 示 的 结果 。 

自 后 淘汰 变量 法 是 首先 将 所 有 变量 都 放 人 模型 里 ,然后 一 次 一 次 地 淘汰 那些 F 值 的 
显著 性 水 平 (Prob>F) 大 于 0. 10 值 ( 查 表 值 ) 的 变量 .以 图 11. 22 为 例 。 

(1) Step 0; 见 图 11. 22(a) 第 3 行 , 该 步 是 将 5 个 变量 都 入 选 , 它 类 似 于 完全 回归 模型 。 

(2) Step 1: 但 是 从 第 0 步 看 来 , 自 变量 SEX 的 TYPE || SS 值 为 最 小 ( 仅 
5672. 97963) ,上 且 下 值 的 显著 性 水 平 (Prob 二 F) 为 0. 6784, KF 0. 10 值 , 因 此 被 淘汰 。 所 
以 ,在 Step 1 P.R F 4 个 自 变 量 。 

(3) 在 Step 1 中 ,WK 变量 的 TYPE I SS 成 为 最 小 者 ( 仅 38905). F 值 的 显著 性 水 
Æ (Prob>F) H 0.2773 KF 0.10 值 ,因此 ,WK 变量 也 被 淘汰 。 

(4) 回归 到 Step 1 时 ,由 于 SEX, WK 变量 淘汰 时 的 显著 性 水 平 大 于 0. 10 ,因此 中 止 

最 后 得 到 回归 方程 式 为 : VI 一 149. 60289 十 36. 61874 κ V7F 十 16. 95516 * EDC 十 
1. 27267 * V8F。 
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L 
Dependent Yariable; vi 月 收入 ;元 
Backward Elimination: Step ἢ 


All Variables Entered; R-Square = 0.182? and C(p) 


Analysis of Variance 


Sum of Mean 
Sources DR Squares Square F Value 


Model 5 2722536 544507 16.53 
Error 371 12219330 32936 
Corrected Total 316 14941866 


Perameler Standard 
variable Bslimale Error Type ΙΙ 55 F Value 


Intercept -03147 53. 43668 283059 
vIr . 23267 5. 09451 1665981 
wk . 20341 4. 65930. 41078 
ede . 13479 8.10370 130587 
Sex 8.13853 19.60998 5672, 97953 
v8f - 33535 0.69937 119902 


ber 


Bactward Elimination; Step | 


Removed; R-Square = 0.1818 and C(p = 4.1722 


The SAS System 


JT 
15:05 Wednesday, Ociober 9, 2002 


The REG Procedure 
Model; MODBLI 
Dependent Variable: vi 月 收入 ;元 


Backward Eliminalion: Step 1 
Analysis of Variance 


Sur of Mean 
Source DF Squares Square F Value — Pr» F 


Model 4 2716863 679216 20.67 ΠΠ 
Error 372 12225003 32863 
Corrected Total 376 14941866 


Parameter StandarG 
Variable 8slimale Brzor Type ΙΙ SS FP Value Pr ^ F 


Int&zcépl 171.42964 42. 53514 53384 16.24 <. HN 
VIF 36. 40275 5. 07234 1692611 $1.51 <. 0001 
-5. 04739 4, 63894 38905 1.18 0.2773 

15. 31852 1.85265 125051 3.81 0. Π518 

1.34662 9.69857 122116 3.72 Ὁ, 0547 


Bounds on condition number: 1.2143, 18.154 


Backward Elimination: Step 2 


Variable wk Removed: R-Squere = f.1792 and C(p) = 3.3535 


(5) 
11.22 自 后 淘汰 法 的 输出 结果 
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δι κας £d 


Sum of Mean 
Source DF Squazes Square F Yalue Pr F 
Model & 2716863 619216 20.67 <. OML 
Error 372 12225003 32863 
Corrected Tolal 376 14941866 
Parameter Standard 
Variable Estimate Brzor Type IL $$ F Yalue Fr > 
IntercepL 171, 42964 42. 53514 533804 16.24 <, 0601 4 
ΥΓ 16, 40275 5. 07234 1692611 51.51 <. 0601 
wk -5. 04139 4.63894 38905 1.18 0.2773 
edc 15. 31852 1.85265 125057 3.81 0.0518 
v8F 1.34662 0.69857 122116 3.12 0.0547 
Bounds on condilion number; 1,2143, 18.164 
Beckwazd Elimination; Siep 2 Ξ 
Variable wk Removed: R-Squars = 0.1792 and C(p) = 3.3535 
Analysis of Variance 
Suu of Mean 
Source DR Squazes Square F Value Prò F 
Model T i He i SIS 27.15 < Po τ᾿ 
Βττοτ 了 1 T 
Corrected Total 376 14941866 im 
(e) 


The REG Procedure 


Model: MODRL1 
Dependent Variable: vi 月 收入 :元 
Backward Bliminaiion: Step 2 
Parameter Standard 
Variable Bslimale Rrzcz Type [155 F Value Pr > R 
Intezcept 149, 60239 37. 51680 522816 15.90 <, 0001 
11 36.61874 5. 06971 1715384 — $21 cL DOD 
edo 16. 95516 7.70913 159042 4.84 D. 0285 
var 1127267 9, 69543 117116 3.35. D. bá8D 


All variables lefi in [he model are significant al Ihe 0. 1000 level, 


Suuwary of Backward Blivuinglion 


Variable Humber Partial Model 

Removed Label Yars in R-Square R-Square Cip F Valus Pr > 

SEC ΛΕΣ : δ ΠΗ Hi 1818 t 1122 t. [n H HEN 

w EER . . 1792 . 3535 1.18 8.277 xj 
(4) 


图 11.22 (45) 
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114 MAR 回归 法 和 RAAE 回归 法 


MAXR 回归 法 和 向 前 选择 法 有 所 类 似 , 均 为 每 步 和 人选 一 个 变量 。 所 不 同 的 是 ， 
MAXR 回归 法 是 通过 改善 R* 值 .使 某 个 自 变 量 驻 留 在 模型 中 , 详 见 图 11. 23 ,每 一 步 的 R? 
值 都 有 所 增加 。 然 而 ,向 前 选择 法 一 旦 变量 入 选 ,不 管 对 模型 有 无 贡献 都 驻 留 在 模型 中 。 

RSQUARE 称 为 Rz 法 (有 时 称 为 所 有 可 能 法 ) , 它 与 多 元 回归 法 有 所 类 似 , 二 者 均 以 
R: 值 的 大 小 ,来 判定 某 变 量 人 选 后 对 模型 贡献 大 小 。R2z 越 大 ,该 变量 人选 后 对 模型 的 贡 
献 也 越 大 。 


1141 MAR 回归 法 


1. ΜΑΧΗ 语句 格式 


PROC REG DATA= 文 件 名 1  OUTEST- X HA 2777; /x* 详 见 131.235 * / 
MODEL, 因 变 量 = 自 变量 表 /METHOD- MAXR SIEntry=a (W 11.2.1 节 中 的 图 11.11) 


其 他 语句 见 11.2. 1 节 的 图 11. 11。 
2. 例子 
ΘΙ 1: 


PROC REG DATA- dl CUTEST- ΤΊ CORR; 

MODEL V- V1. V2/METHOD- MXR; 

PRINT ALL; 

例 1 说 明 : 

。 例 1 的 第 1 条 语句 是 调用 REG 过程. 并 计算 相关 和 矩阵 。 

。 第 2 条 语句 建立 的 MODEL H: 因 变 量 是 收入 ( 即 V), 自 变量 是 工种 和 工龄 ( 即 
V1 和 V2)。 斜 杠 后 面 的 “METHOD 一 MAXR” 则 是 本 例 的 目的 (要 求 用 MAXR 
法 进行 回归 分 析 )。 

* PRINT ALL: 要 求 显示 XPX GHE PE). SS1,SS2, STB, TOL, COVB 等 18 种 参 
数 , 详 见 11. 2. 2 节 的 注解 (19) 。 

。 关 于 MAXR 的 实用 例子 ,可 进一步 参阅 程序 11. 4 中 的 MAXR 语句 ,以 及 
图 11. 24。 


1142 RAQA 回归 法 


1. RSQUARE 的 语句 格式 


256 4». TYPES 


MODEL 因 变 量 = 自 变量 /METHOD- SQUARE. SIEntry- o; ( 详 见 11.2.1 35 rf i] 11.11) 
其 他 语句 见 11.2. 1 节 中 图 11.11. 

2. 例子 

例 2: 


PROC REG DATA- d2 OUTEST- T2 CORR; 

MDDET V- V1 V2/METHOD- SQUARE CP start- 2 stop- 3 PRINT ALL; 

说 明 : 

。 例 2 中 的 /METHOD 王 SQUARE CP 要 求 SAS 进行 所 有 可 能 法 的 回归 分 析 , 并 
显示 ΟΡ 统计 量 和 RSQUARE 值 。 

。 其 余 见 例 1 的 第 1 点 至 第 3 点 说 明 。 

。 实例 见 下 述 程序 11.4 的 RSQUARE 语句 及 其 图 11.25. 

* Start 一 2: 表示 被 估计 的 自 变 量 的 最 少 个 数 。 

* stop 一 3: 表示 被 估计 的 自 变 量 的 最 多 个 数 。 


1143 实用 程序 及 图 例 


引用 SAS 软件 包 STAT SAMPLES 盘 上 的 一 个 例子 (文件 名 为 REG02EX. SAS)， 
以 说 明 如 何 选用 MAXR 和 RSQUARE 命令 进行 回归 分 析 , 详 见 程序 11. 4。 
程序 11. 4: 


DATA FTINESS; 
INPUT AGE WEIGHT OXY RUNTIME RSTPULSE 
RUNFULSE MAXPULSE; 
CARDS; 
44 89.47 44.609 11.37 62 178 182 
40 75.07 45.313 10.07 62 185 185 
44 85.84 54.297 8.65 45 156 168 


50 82.78 47.467 10.50 53 170 172 
PROC REG; 
MOEL OXY- RUNTIME AGE WEIGHT RSTFULSE RUNPULSE MAXPULSE 
/ METHOD- MAXR; /* 输出 结果 见 图 11.24 / 
TITIE2; 
MODEL OXY= AGE WEIGHT RUNTIME RUNPULSE RSTPULSE MAXPULSE 
/ METHOD- RSQUARE. CP; /* 输出 结果 见 图 11.23 一 图 11.25 * / 
TITLE2 'PHYSICAL FTTNESS DATA: ALL MODELS'; 
RUN; 


说 明 : 程序 11.4 的 INPUT 语句 中 一 共 定 义 7 个 变量 ( 见 AGE 至 MAXPULSE), 
该 程序 用 两 个 MODEL 语句 和 两 条 METHOD 命令 定义 了 两 种 回归 模型 ,每 种 模型 
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分 别 对 应 着 一 个 输出 图 例 。 
运行 程序 11. 4 产生 图 11. 23 一 图 11. 25 所 示 的 结果 。 


REGÜZEX: AEROBIC FITNESS PREDICTION: EXAMPLE 2 
PHYSICAL FITNESS DATA: ALL MODELS 


Maximum R-square Improvement for Dependent Variable OXY 
[step 1 Variable RUNTIME Entered ^ R-square = 0.74330010  c(p) = 13.69084040 
EI Sum of Squares Mean Square F ^ Prob» 
Regression a 632.90009985 632.90009985 84.01 0.0001 
Error 29 210.40144499 7.53304293 
(Total 30 851.38154484 
Parameter Standard Type II 
Variable Estimate Error Sum of Squares Prob>F 
jzwrencep 82.42171268 3.85530378 3443.36654076 0.0001 
RUNTIME -3.31055536 0.36119485 632.90009985 : 0.0001 
Bounds on condition number: 1.0000, 1.0000 
The above model is the best 1 variables model found. 


Step 2 Variable AGE Entered R-square = 0.76424693 12.38944895 


(The above model is the best 2 variables model 


Step 3 Variable RUNPULSE Entered R-square = 0.81109446 


[The above model is the best 4 variables model found. 


Step 5 Variable WEIGHT Entered R-square = 0.84800181  C(p) 5.10627546 
Variable Estimate Error sum of Squares F — Prob»F 
"INTERCEP 102.20427520 11.97928912 376.78934930 72.79 0.0001 
RUNTIME -2.68252297 0.34098544 320.35967836 61.89 — 0.0001 


AGE -0.21962138 0.09550245 27.31429100 5.29 0.0301 
jercHy -0.07230234 0.05331009 9.52156710 1.84 0.1871 
RUNPULSE -0.37340085 0.11714109 52.59623720 10.16 0.0038 
MAXPULSE 0.30490783 0.13393642 26.82640270 5.18 — 0.0316 
Bounds on condition number: 8.7312, 104.8 
The above model is the best 5 variables model found. 
Step 6 variable RSTPULSE Entered R-square = 0.84867192 1.00000000 
DE Sum of Squares Mean Square E — Prob»F 
Regression 6 722.54360701 120.42393450 22.43 0.0001 
Error 24 128.83793783 5.36824741 
Total 30 851.38154484 
Parameter Standard Type II 
Variable Estimate Error Sum of Squares 
INTERCEP 102.93447948 12.40325810 369.72831073 


RUNTIME -2.62065202 0.30456220 250.82210090 
AGE -0.22691380 0.09983747 21.14511148 
WEIGHT -0. 07417741 0.05459316 9.91058836 
RSTPULSE -0.02153364 0.06605428 0.57051299 
RUNPULSE -0.36962716 0.11985294 51.05805832 
MAXPULSE ϱ. 30321113 ϱ. 13645519 26. 49142405 
Bounds on condition number: 8.7438, 137.1 

The above model is the best 6 variables model found. 

No further improvement in R-square is possible. 
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N = 31 Regression Models for Dependent Variable: OXY 


In  R-square 


0. 7433801 
. 1594853 
.1583834 
.0927765 
. 0560459 
. 0264885 


Fr rr rr 5 
oooooco 


CCP) 


13. 69884 

106. 30211 
106. 47686 
116. 88184 
122. 70716 
127. 39485 


Variables in Model 


RUNTIME 
RSTPULSE 
RUNPULSE 
AGE 
MAXPULSE 
WEIGHT 


. 7642469 
- 7614238 
. 7452211 
7449348 
. 7435330 
. 3759954 
. 3002703 
. 2894195 
. 2599817 
. 2350307 
1806067 
1740393 
.1668554 
.1506353 
. 0675159 


oOooooococoococococococoooococ 


. 8110945 
. 8099884 
. 7817302 
7708306 
.7673494 
. 7618985 
.7618290 
. 7461549 
. 7452268 
. 7451114 
. 4666484 
. 4222735 


o 6 o O ooo oS Ses 


12. 389449 
12. 837184 
15. 406872 
15. 452274 
15. 674598 
73.96451 

85. 974204 
87. 695093 
92. 363796 
96. 320923 
104. 95234 
105. 9939 

107. 13325 


AGE RUNTIME 
RUNTIME RUNPULSE 
RUNTIME MAXPULSE 
WEIGHT RUNTIME 
RUNTIME RSTPULSE 
AGE RUNPULSE 

AGE RSTPULSE 
RUNPULSE MAXPULSE 
AGE MAXPULSE 
RUNPULSE RSTPULSE 
WEIGHT RSTPULSE 
RSTPULSE MAXPULSE 
WEIGHT RUNPULSE 
AGE WEIGHT 
WEIGHT MAXPULSE 


6. 9596267 
7.1350367 
11. 61668 

13. 345306 
13. 897406 
14. 761903 
14. 772916 
17. 258776 
17. 405958 
17. 424267 
61. 587323 
68. 625008 


AGE RUNTIME RUNPULSE 
RUNTIME RUNPULSE MAXPULSE 
AGE RUNTIME MAXPULSE 

AGE WEIGHT RUNTIME 

AGE RUNTIME RSTPULSE 
RUNTIME RUNPULSE RSTPULSE 
WEIGHT RUNTIME RUNPULSE 
WEIGHT RUNTIME MAXPULSE 
RUNTIME RSTPULSE MAXPULSE 
WEIGHT RUNTIME RSTPULSE 
AGE RUNPULSE RSTPULSE 

AGE RUNPULSE MAXPULSE 


11.25 R-square 的 输出 示意 图 


ss 未 用 FE 过程 进行 多 元 线性 回归 分 析 
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.4091255 70.710215 AGE WEIGHT RUNPULSE 

.3900068 73.742365 AGE RSTPULSE MAXPULSE 
.3568473 79.001324 AGE WEIGHT RSTPULSE 

.3537718  79.48908 RUNPULSE RSTPULSE MAXPULSE 
.3207793 84.721553 WEIGHT RUNPULSE MAXPULSE 
.2902125 89. 56933 AGE WEIGHT MAXPULSE 

.2446512 96.79516 WEIGHT RUNPULSE RSTPULSE 


Q9) Q9 Ὁ) Ὁ Ὁ) Ὁ) w 
ο ο ο ο 99Ὁ 


0. 5116702. 8. 8683244 AGE RUNTIME RUNPULSE RSTPULSE 

0. 8104004 9.0697 RUNTIME RUNPULSE RSTPULSE MAXPULSE 
0.7862243 12.903931 AGE WEIGHT RUNTIME MAXPULSE 
0.7834321 13.346755 AGE RUNTIME RSTPULSE MAXPULSE 
0.7750328 14.678848 AGE WEIGHT RUNTIME RSTPULSE 
0.7622524 16.705777 WEIGHT RUNTIME RUNPULSE RSTPULSE 
0.7461785 19. 255019 WEIGHT RUNTIME RSTPULSE MAXPULSE 
0. 5033977 57.759038 AGE WEIGHT RUNPULSE RSTPULSE 

0. 5024508 57.909213 AGE RUNPULSE RSTPULSE MAXPULSE 
0.4717197 62.783048 AGE WEIGHT RUNPULSE MAXPULSE 
0.4256071 70.096306 AGE WEIGHT RSTPULSE MAXPULSE 
0.3857969 76.410043 WEIGHT RUNPULSE RSTPULSE MAXPULSE 


In R-square CCP) Variables in Model 

. 8480018 5. 1062755 AGE WEIGHT RUNTIME RUNPULSE MAXPULSE 

. 8370313 6.8461497 AGE RUNTIME RUNPULSE RSTPULSE MAXPULSE 
.8175561 9. 9348366 AGE WEIGHT RUNTIME RUNPULSE RSTPULSE 

.8160828 10.168497 WEIGHT RUNTIME RUNPULSE RSTPULSE MAXPULSE 
.7887011 14.511122 AGE WEIGHT RUNTIME RSTPULSE MAXPULSE 

. 5540659 51.723275 AGE WEIGHT RUNPULSE RSTPULSE MAXPULSE 

. 8486719 7 AGE WEIGHT RUNTIME RUNPULSE RSTPULSE MAXPULSE 


oooocoooco 


图 11.25 (46) 


图 形 分 析 : 

1. 由 于 采用 最 大 R* 改 善 法 (MAXR) 选 取 最 佳 的 回归 模型 ,又 因为 有 6 个 自 变 量 , 因 
此 图 11.24 中 有 6 步 回 归 。 当 每 步 CStep) 新 人 选 一 个 自 变量 后 ,R?* 都 略 有 递增 。 到 了 最 
后 一 步 ,6 个 自 变 量 都 进入 了 模型 。 所 以 回归 模型 可 写 为 ( 取 小 数 点 后 4 位 ): 

OXY —102. 935 一 2. 6286 * Runtime — 0. 2269 * AGE — 0. 0742 * WEIGHT 
— 0. 0215 * RStpulse — 0. 3696 * Runpulse + 0. 3032 * Maxpulse (11.1) 

2. 图 11. 25 是 采用 所 有 可 能 法 (RSQUARE) 进 行 回归 分 析 。 图 中 共有 四 栏 : 

(1) In: 表示 在 方程 中 的 变量 数目 。 

(2) R-square: R? FE R% 

G) CP): 具有 P 个 参数 的 回归 模型 之 总 平方 误差 CTotal square error, 简写 为 
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ΤΡΕ).Ἠ ας: 


ΟΡ’ 一 SEEP* —MSEt— (n—2P* ) 2) 

式 (11.2) 中 ,P* 为 P 个 自 变 量 的 回归 模型 的 参数 数目 ; SSEP” ”为 P 个 参数 的 回归 
模型 的 误差 平方 和 ;t 为 回归 模型 中 应 包含 的 参数 总 数 ; MSEt 为 包含 t 个 参数 的 回归 模 
型 的 均 方 误差 ;n 为 样本 规模 即 样本 数目 。 

ΟΡ’ 参数 在 图 11. 25 中 显示 为 CC(P) 。 显 见 ,在 每 一 步 回归 分 析 中 ,CCP) 值 随 着 模型 
中 的 自 变量 个 数 的 增加 而 增加 ,但 R-square 值 却 递减 。 

(4) Variables in Model; 此 栏 见 图 11. 25 的 第 4 栏 , 它 表示 每 步 回 归 中 ,模型 中 各 个 
自 变 量 的 所 有 可 能 的 排列 组 合 。 例 如 ,图 11. 25 中 , 当 模 型 中 有 5 个 自 变 量 时 ,该 步 入 选 
的 这 5 个 自 变量 呈现 着 5 种 不 同 的 先后 次 序 ,而 第 5 种 的 排列 次 序 为 : AGE, WEIGHT, 
RUNPULSE、RSTPULSE、MAXPULSE, 它 是 该 步 的 回归 结果 。 

到 了 第 6 步 ,也 就 是 此 例 的 最 后 一 步 , 已 进入 模型 的 6 个 自 变 量 ,其 先后 顺序 颇 为 重 
要 ,因为 它们 的 先后 次 序 , 可 作为 逐步 回归 模型 的 最 佳 形式 。 
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1. 在 微型 计算 机 SAS 系统 中 REG 过 程 包 含 哪 些 回归 方法 ? 
2. 请 分 析 图 11. 26 的 回归 结果 .并 写 出 回归 预测 模型 。 


Summary ol Siepwise Selection 


Variable Variable Number Partial 
Step Entered — Removed Label Vars In R-Square R- faure ος) F Value Pr > 
1 vif Κλ. 1 0. 0837 0.0837 24.2831 43.11 «0001 
2 edc 文化 程度 2 0. 0287 0.1124 10. 7788 15.25 0.0001 
3 vif 居住 面积 3 0. 0143 0.1268 5.0598 7.70 0.0057 


09:58 Friday, June 14, 2002 3j 
The REG Procedure 
Model; MODELI 
Dependeni Variable: vi 月 收入 :元 
Analysis of Variance 


Sum of Mean 


Source DF Squares Square F Value Rr» F 
Model 3 2141025 313615 22.74 — «. 000 
Brror 410 18884331 40179 
Corrected Total 413 21625358 

Root MSE 200.44808  R-Square 0. 1268 

Dependent Mean 379.81857 Adj R-Sq 0.1212 

Coeff Var 52. 11469 


Parameter Bslimales 


Parameter Standard 


Variable Label DF Estimate Brror t Value Pr > ltl Type [SS Type ΙΙ SS 
Intercept Intercept 1 136.45759 32.80933 4.16 <, 0001 68380256 695032 
vif 总 人 1 24. 09807 4.29298 5.61 <, 0001 1810025 1266047 
edc 文化 程度 1 23. 94608 1.02721 3. 41 9. 0007 621552 466559 
ysr 居住 面积 1 1. 76143 0. 63471 2.78 0. 0057 309448. 309448 


11.26 REG 过 程 产生 的 回归 结果 


路 径 分 析 是 回归 (CRegression) 分 析 和 因素 分 析 (Factor Analysis, 也 称 为 因子 分 析 ) 
的 结合 。 路 径 分 析 是 一 种 结构 模型 的 分 析 , 又 称 为 通 径 分 析 。 路 径 分 析 用 以 分 析 有 时 间 
顺序 的 变量 中 ,前面 的 变量 对 随后 的 变量 有 什么 影响 ,是 通过 什么 “路 径 ”( 变 量 ) 影 响 到 
随后 的 变量 等 ,从 中 可 以 获得 “因果 关系 ”的 结构 模型 ,这 就 是 路 径 分 析 。 因 此 ,路 径 分 析 
是 一 种 非常 重要 的 探索 性 统计 方法 。 

在 我 们 编著 的 《SPSS 实用 教程 》( 电 子 工业 出 版 社 ,2008 年 ) 和 《统计 分 析 应 用 大 
全 一 一 SPSS & LISREL & SAS》( 清 华 大 学 出 版 社 ,2003 年 ) 两 册 教 程 中 介绍 过 ,有 一 种 
专门 研究 路 径 分 析 的 单独 软件 叫 LISREL , 它 具 有 路 径 分 析 的 强大 功能 。 此 外 ,SPSS fX 
件 中 也 捆绑 着 LISREL 模块 。 本 章 内 容 则 是 从 SAS 的 角度 介绍 路 径 分 析 的 方法 。 

路 径 分 析 首 先是 根据 有 关 的 理论 知识 建立 一 个 “因果 关系 ”的 结构 模型 ,绘制 出 完全 
模型 的 路 径 分 析 图 (Path diagram of full Model) ,并 找 出 模型 中 所 有 变量 之 间 尽 可 能 有 
的 “因果 关系 ”, 然 后 用 计算 线性 回归 系数 的 方法 计算 出 路 径 系数 。 最 后 要 剔除 那些 影响 
力 甚 微 的 变量 而 画 出 限定 模型 的 路 径 分 析 图 (Path diagram of restricted Model) 。 
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本 章 通过 对 部 分 大 学 生 的 高 考 成 绩 及 择业 愿望 等 基本 情况 的 调查 数据 , 拟 建 一 个 
“因果 关系 ”的 结构 模型 ,以 研究 父亲 职业 是 通过 什么 途径 影响 子女 的 高 考 成 绩 和 择业 等 
状况 的 。 数 据 和 程序 文件 见 磁盘 的 DZ9798. sas 或 程序 12. 1 所 示 。 

程序 12. 1: 


OPTIONS NODATE NONUMBER; 

TITE ' 路 径 分 析 ' 

DATA PATHREG (type- corr); 

INEUT type $ name $ vf vm score zy zo; 


CARDS; 
CORR vf 1.0000 «6313 - «3548 - .2137 - .2420 
CORR wn -6313 1.0000 -.4312 -.2239 - .1474 


CORR Score -.3548 - -4312 1.0000 -2504 -2050 
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CORR zy --213/ - «2239 .2504 1.0000 -1166 
CORR zo -.2420 -.1474 «2050 -1166 1.0000 
N ΤΕ 189 189 189 189 189 
TITIE 1 'Below is full model of path analysis'; 
TITE 2 "下面 是 完全 模型 的 路 径 分 析 '; 
PROC REG; 

MODEL ve v£/STB; 

MODEL Score- vf w/STB; 

MODEL zy- vf vm Score/STB; 

MODEL zo vf vm Score zy/STB; 
RUN; 
TITLEl 'Below is restricted model of path analysis'; 
TITIE2 "下 面 是 限定 模型 的 路 径 分 析 "7 
PROC REG; 

MODEL νπε- v£/STB; 

MODEL Score- vf wm/STB; 

MODEL zy- Score/STB; 

MODEL, zo- Score zy/STB; 
RUN; 


在 图 12. 1 中 编辑 程序 12. 1. 


ΠΠ -ax 
Dc W &i 5 DA 


TITLE ,路 径 分 析 ': 

SDATA PATHREG(type-corr]; 

INPUT type $ name. zy το; 
CARDS; 

con νε 1.0000 . É -2137 
CORR vm .6313 1. $ «2239 
CORR Score -.3548 d «2504 
CORR zy — -.2137 d -0000 
CORR zo -.2420 -. E -1166 

nN o 189 2 155 


TITLE 1 'Βεῖου is full model of path analysis; 
TITLE 2 ,下 面 是 充 全 模型 的 路 入 分 析 ': 
SPROC REG; 
MODEL wmrvt/STB: 
MODEL Score=vt vm/STB; 
MODEL zyevf vm Score/ST8; 
MODEL zo=vf wm Score zy/5T85; 
LN : 
TITLEi 'Below is restricted model of path analysis; 
TITLE? ,下 面 是 限定 模型 的 路 径 分 析 ' 
CPROC REG; 
HODEL vmevi/sTB: 
HODEL Score-vf vm/STB; 
MODEL zyeScore/STE; 
MODEL zo-Score zy/STB; 
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12.1 路 径 分 析 的 程序 和 数据 


运行 程序 12. 1 产生 图 12. 2 至 图 12. 5 所 示 的 结果 。 但 只 有 模块 齐全 且 正 版 的 SAS 
系统 才 具 有 绘制 路 径 图 的 功能 。 
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图 12. 2 是 完全 模型 的 方差 分 析 和 参数 估计 等 统计 量 。 由 于 图 12. 2 的 信息 量 大 ,所 
以 分 屏 输出 为 4 个 连续 图 。 


1. 完全 模型 


图 12. 2 是 完全 模型 的 方差 分 析 和 参数 估计 。 
从 完全 模型 的 方差 分 析 和 参数 估计 看 ,Score、Zy、Vm 等 变量 的 t 值 (t Value) 的 概 
ARCPr— |t X 0.0776 以 上 , 即 不 显著 。 因 此 本 数据 车 用 完全 模型 则 不 是 理想 的 结构 


模型 。 


elou is Tull model ol path analysis 
下 面 是 全 模型 的 路 径 分 析 
The REC Procedure 
Model; WODELI 
pependent Variable; VM 
Analysis of Variance 
Sux cf Mean 
Source DF Squeres Square F Value LO 
Nodet 1 πας 93546 123.91 eoor 
"eror 187 6, 60163 
Corrected Total 188 
Rooi M58 0.77761. R-SQuare 3. 3985 
Dependeni Mean 0 Adji R-SQ 9. 3953 
Conf? var 
Parameier Estimates 
Siandard Standardized 
Variable or Error t Value Pr > [i Bslimale 
Intercept [ ν 9. D5656 5. 00 1. 0900 e 
νΓ η 3. 63130. 0. 05671 11.13. «. DAOL 0.63136 
(2) 最 初 模型 拟 合 度 检 验 
Belcu is Toll model Cr prik analysis 
FEMEN M HEAT 
Analysis of Variance 
Sum of Mean 
Source 5. Squares Square P Value PE P 
Modat 2 31. 08724 18. 1416 22.86 < 00M 
azto? 186 150.91276 DENE 
Γοττποῖκο τοῖαι 188 188. 00000 
Root MSE 9.90075 R-Squere 0.1973 
Depsnüesni Mean ϱ adj π-ὸς 9, 1185 
CosfF Var 
Parameter BStingtes 
Parameter Standart Standardized 
Variable oe ΠΠ Brror Pre > lt Estimate 
Intercept 1 H D. 06552 1. 060C 
yf -0.13730 IND [S150 
vw L 一 34451 D. 08471 <. bob 
ΠΝ T "1 
(b) 杭 型 中 进入 了 两 个 白 变 量 


12.2 完全 模型 的 路 径 分 析 
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2. 限定 性 模型 


Below τς rull model UI palh analysis 
TE ΕΡΕ 
The RBG Procedure 
Hodel: MODEL] 
Dependeni Variable: ZY 
Mean 
Source E Squesc F Value Ρε» Β 
Hodet 3 5. 30398 5.70 — 0.0009 
Error 185 3.93021 
Corrected Total 188 
Root MSE 0.96447 — R-Squaze 9. 6846 
Dependent Mean 5 Adj R-3q b. 6698 
CoefF Var 4 
Parameter Slandardized 
variable DF RsLimate Brror Valus Pe > lul BsLimate 
Intercept H [] 0. 00 1.0000 H 
YF 1 το. 59558 -1.05 0.2962 το. 09568 
vM 1 一 0 08519 -0.9 0. 3637 9 
SCORE t D. 17929 2,28 EN 0.17929 
(c) EXPE A, r STARR 
Below is Full model of path analysis 
下 面 是 全 模型 的 巾 径 分 析 
της RAG Procedure 
Model: MODELA 
Depen ariable: 20 
Analysis of Varinnce 
Sum of Wear 
Source Da Squares Square P Value Pr>p 
Mogel 5 1.112. 1. 96. δν fne 
Error 186 δ. S&106 
Corrected Total 188 
"ool MSE 0.93098 — R-Square 2. 0790 
Depengent Meun 0 A3) R-5Q D. 0589 
Corf Var 
Πο ο το 
Pa rame1er Stangar6 Standardized 
Variable DF Estimate Brror L Value Pz > [ul Bslimale 
intercept 1 9. 07396 D. 06 1.0000 
xf 1 六 03214 -2.4 i 
vM 1 3. 095«t 5.68 
SCDRE 1 3. 08907 nn 
zí 1 3; 07395 3: 65 


(d) 最 终 异型 
图 12.2 ( 续 ) 


图 12. 3 是 限定 性 模型 的 方差 分 析 和 参数 估计 等 统计 量 , 它 是 分 屏 输 出 为 4 个 连续 
图 。 所 谓 限 定性 模型 是 在 完全 模型 的 基础 上 剔除 影响 力 甚 微 ( 例 如 系数 绝对 值 小 于 0. 2) 
的 效应 项 ,而 成 为 非 完 全 模型 ,因此 被 称 为 限定 性 模型 。 
从 图 12. 3 的 限定 性 模型 的 方差 分 析 和 参数 估计 看 ,Score 变量 的 1+ 值 Ct Value) 的 概 
率 (Pr>|tl) 为 0.0120, 比 图 12. 2 中 Score 变量 的 t 值 (t Value) 的 概率 小 , 即 变 得 显著 
了 。 表 明 限 定性 模型 比 完 全 模型 理想 。 


Eala 


路 么 分 析 
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Selow is reslricled model οἳ path analysis 


ΣΣ ΣΤ ΤΣΗ 


The REG Procedure 
Mode MODELL 
Deperden! Variable: ΜΕ 


Analysis of Variance 


Sum of Menn 
Source DF Sauares Square F Value Fr 》P 
model 1 τε, 92546 74. 92545 133.90 — c. 000i 
Brror 187 113. 07454 0. 50458 
Corrected Total 188 188. 60000 
Root MSa 0.77761 — a-Square D. 1985 
Dependent Mean D Adj R-Sq D. 3953 
Coeff Var s 
Paraveler Eslivales 
Parameter Standard Standa 
Variable Dr Estlinale Error 1 Yalue Pr > dU Eslimate 
Intércept 1 t 0, 05556 6.60 1. 6000 » 
v? 1 3. 63135 B. B5671 ΠΒ s. bel 0.63130 
(2) 最 初 价 型 拟 合 度 检验 
Ἐετον is resiricied model pl palk analysis 
Te RCEGEJRA XS ers 
The REG Procedure 
Model: MODEL 
Dependent Variable; SCORE 
analysis of Variance 
Sum of Mean 
Source or Squares Square F Value — PR F 
Wodel H 31, 08724 14. 54362 22.86 — «000i 
Beror 186 150. $1276 (8106 
Corrected Total 188 188. 00006 
Roci ($a 0.90075 — R-Sqvece 0.1973 
Dependent Meun ὃ aaj R-SQ 0. 1886 
Coeff νετ 
Paramcler 2slinales 
Farameler Standarg6 Standardized 
Yariablé Dr Eslipale Error 1 Valus z> iul Bslimate 
nterccPT 1 H 9. 05552 1. 0000 v 
νε 1 -ᾱ. 13110 0. 08471 0. 1067 -0. 13730 
LI 1 一 9. 34452 D. 08471 NI το. 34432 
(b) 模型 2 中 的 自 变量 
Below is resiricled model of paih analysis 
AREARE S 6L RES 
The REĜ Frocedure 
Model: MODELI 
Dependent Variable: Zi 
Analysis of Variance 
Sum of Mean 
πα Sauares Square F Value Ρ»Ε 
1 11. 28763 11.78763 12.51 — 0. 0005 
187 176. 21237 3. 54211 
Corrected Tolal 188 138. 00000 
Root MSE 9.97073 — R-Squaré 9. 0621 
Dependent Mean © — Adi R-Sq 9. b577 
Cosff Yar 
Parameier Pslinales 
Parameier Standard Standardized 
Variable DF EsLiwale Έττοτ t Yalue Pr > Ji Bslimele 
Intercept 1 5 9. 07061 5.0 τ. 000 ῃ 
scóna 0.25040 9. 07080 3.54 0. 6005 0.25840 
(c) 模型 3 cB Eg ag ni 


12.3 限定 性 模型 的 路 径 分 析 
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belos is vesiricisd mode] n palh analysis 
下 面 是 限 之 模型 的 五 径 分 析 s 
Analysis of Variance 
Sum of Mean 
Source Dr Squares Square F Valus Fr>P 
Model 3 4. 31151 454 δις 
Error 185 0.36368 
Corrected Total 186 
Root mse 0.58187 D. 0466 
Dependeni Mean [] D 0361 
Cosf? Yar 
Perameler Bsiimzles 
Peranetóc Standard Standurdizod 
Variable DF astimats Error dp Value — Fr» [ul ΤΩ 
Interoept 1 e [3:0 9. 0t 1, 060 o 
score 1 9, 18156 δ 61395 254 y 0120 9.18756 
zy 1 0. 06955 b. 61395 DELI 3.1 δ. 06963 


(4) 最 终 模型 
图 12.3 (438) 


123 路 么 图 的 分 析 广 法 


图 12. 4. 12. 5 是 示范 性 的 两 个 路 径 图 。 


2.50 
df=1, P-value=0.07528, RMSEA=0.108 
12.4 完全 模型 的 路 径 图 
SCORE 135.00 
8.85 一 | VF 
1.59 

2.50 1.59 

4.06— VM 


4.01 


12.5 限定 性 模型 的 路 径 图 
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观察 路 径 图 主要 是 看 箭头 方向 , 它 表 示 某 变量 受到 来 自 箭头 方向 的 变量 的 影响 。 箭 
头 中 间 的 数字 是 路 径 系数 , 即 标准 化 的 回归 系数 .这些 系 数 等 于 图 12. 2 和 图 12. 3 中 的 
参数 估计 值 。 路 径 系数 大 的 变量 ,其 影响 力也 大 。 

由 图 12. 4 可 进一步 推理 出 母亲 职业 变量 Vm 的 编码 (如 : 1 一 工人 ,2 一 农民 ,3 一 教 
师 ,4 一 干部 ,5 一 医生 等 ) 越 是 排 在 后 面 , 该 生 的 成 绩 ( 变 量 Score) 则 越 低 。 而 且 母 亲 职 业 
(变量 Vm) 是 通过 择业 (变量 zy) 影 响 子 女 的 择偶 标准 (变量 Bz) 的 。 

由 图 12.5 看 出 : 父亲 职业 (变量 Vf) 和 学 生 择 业 ( 变 量 Zy) 两 个 变量 则 共同 影响 该 生 
的 成 绩 (Score)。 


z m 12 


1. 什么 是 完全 模型 的 路 径 图 和 限定 性 模型 的 路 径 图 ? 
2. 请 仿照 第 12 章 12.1 节 的 程序 12.1 画 出 更 好 的 “完全 模型 的 路 径 图 和 限定 性 模 
型 的 路 径 图 ”。 


生存 分 析 也 称 为 寿命 分 析 ,是 对 生命 结束 时 的 非 追 踪 分 析 及 生命 进行 时 (未 结束 ) 的 


追踪 分 析 。 生 命 结束 时 由 于 有 寿命 已 终结 的 准确 时 间 . 因 此 便于 分 析 其 生存 周期 ,如 一 
部 机 器 的 淘汰 周期 或 一 个 人 的 寿命 周期 。 而 追踪 分 析 由 于 生命 仍 在 延续 (还 存在 ) ,因此 
无 法 确切 地 了 解 其 生存 周期 (如 某 部 机 器 的 运行 寿命 为 多 少年 ,或 基 人 手术 后 又 活 了 多 


D 


FE) 这 就 需要 采用 本 章 所 介绍 的 生存 分 析 , 即 根据 观察 到 的 随机 变量 (人 或 机 器 ) 数 据 ， 


进行 统计 与 预测 。 在 数学 上 ,被 称 之 为 “对 一 个 或 多 个 非 负 随 机 变量 T 进行 统计 ”。 因 


而 ， 


生存 分 析 在 人 类 学 、 医 学 、 生 物 学 等 各 个 学 科 领 域 有 着 极其 重要 和 广泛 的 应 用 价值 。 
131 - 38 ΞΙ se 


1. 寿命 函数 


寿命 函数 其 公式 为 : 

Si) — P(T>D (13. 1) 
式 (13.1) 中 ,TT 是 被 追踪 ( 待 查 ) 的 非 负 随 机 变量 工 ,简称 为 追踪 变量 。 
由 此 推论 出 分 布 函 数 公 式 为 : 


F() —PO«-D (13. 2) 
2. 危险 率 函 数 
另 一 个 函数 是 危险 率 函 数 , 即 失效 率 或 故障 率 函 数 ,其 公式 为 : 

λ() = F/SW) (18. 8) 
3. 追踪 事件 


追踪 事件 (censored cases) .也 称 为 待 查 或 删 失 的 个 案 。 
4. 非 追踪 事件 


非 追 踪 事 件 (uncensored cases) .也 称 为 非 待 查 的 个 案 。 
生存 分 析 中 的 数据 一 般 都 含有 追踪 ( 待 查 或 删 失 ) 的 数据 。 
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5. 三 种 追踪 数据 


。 左 追踪 数据 : 不 知道 寿命 时 间 ,只 知道 它 大 概 小 于 T. 
。 布 追踪 数据 : 不 知道 寿命 时 间 , 只 知道 它 大 概 大 于 T. 
。 区 间 追 踪 数 据 : 不 知道 寿命 时 间 工 ,只 知道 它 界 于 Τι TT. 


6. 两 种 协 变量 


在 研究 生存 (寿命 ) 时 ,应 该 考虑 其 他 因素 的 影响 ,如 手术 后 病人 的 存活 时 间 ,一般 是 
与 病人 的 年 龄 .手术 前 的 生理 指标 有 关 。 这 些 变量 被 称 为 协 变量 ,又 称 为 加 速 变 量 。 

协 变量 可 以 不 只 一 个 ,而 且 有 以 下 两 类 : 

连续 变量 (如 年 龄 .工资 ) 和 标 称 变量 (如 性 别 、 民 族 )。 


7. 因 变 量 


因 变 量 也 叫 响应 变量 。 当 把 生存 时 间 工作 为 因 变 量 , 把 协 变量 X 作为 自 变 量 时 ， 
则 有 : 
Y = LN(T) (13. 4) 
或 
Y = B, +B: Xı +B:X: +e +e (13.5} 


8. 两 个 用 于 生存 分 析 的 过 程 命令 


1) LIFEREG 过 程 

此 过 程 是 用 参数 模型 去 拟 合 “ 含 有 非 妃 踪 的 生存 数据 *”。 适 用 于 具有 以 下 分 布 的 
数据 : 

指数 分 布 .对 数 正 态 分 布 、 对 数 Logistic 分 布 .Gamma 分 布 . Weibull 分 布 等 。 

当 模 型 中 没有 标 称 ( 分 类 ) 数 据 时 , 则 输出 数据 集 里 的 参数 估计 、 协 方差 和 矩阵 ,以 便 进 
一 步 统计 分 析 o 

2) LIFETEST 过 程 

用 非 参 数 分 布 计算 生存 分 布 .并 进行 因 变 量 与 自 变 量 相关 的 秩 次 检验 。 其 算法 采用 极 
限 乘 法 或 寿命 表 法 。 输 出 的 数据 集 里 含有 参数 估计 , 协 方差 矩阵 ,以便 进 一 步 统计 分 析 。 
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LIFEREG 过 程 是 常用 的 生存 回归 过 程 ,由 参数 模型 去 拟 合 可 能 含有 追踪 的 数据 , 即 
含有 左 追 踪 、 右 追踪 和 区 间 追 踪 的 数据 。 其 模型 由 协 变 量 的 线性 效应 项 和 随机 干扰 项 组 
成 。 随 机 干扰 项 的 分 布 可 以 取 以 下 的 分 布 类 型 : 

极 值 分 布 、 正 态 分 布 和 逻辑 斯 蒂 克 (Logistic) 分 布 。 以 及 通过 指数 转换 获得 的 指数 
分 布 .对 数 正 态 分 布 .对 数 Logistic 分 布 Gamma 分 布 `\Weibull 分 布 等 。 

以 生存 时 间 为 因 变 量 的 模型 为 : 
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Y = XB + & (19.6) 

式 (13.6) 中 ,Y 是 生存 时 间 取 对 数值 ,X I RAE t CHEER HE RO πε. B 是 待 求 的 

回归 系数 ,s 是 未 知 的 刻度 (尺度 ) 参 数 。s 被 假设 为 标准 正 态 分 布 的 误差 向 量 。 这 些 参 数 
可 采用 Newton-Raphson 算法 并 通过 最 大 似 然 法 计算 出 。 


1321 UFEREG 过 程 命令 


1. 过 程 命令 的 格式 


PROC LIFEREG 选项 1; 


CLASS vl v2; /* vl,v2 为 标 称 变量 , 即 分 类 变量 * / 
MODEL 于 变量 1/ 选 项 2; /* 一 个 LIFEREG 过 程 允许 多 个 MDCEL 语 句 。Y 为 因 变 量 * / 
WEIGHT v3; 
OUTPUT ooTr= 输 出 变量 集 名 称 选项 3; 
BY v4; 
2.“ 选 项 1” 内 容 


* DATA= 王 输入 变量 集 名 称 若 省 略 本 项 . 则 用 工作 区 里 的 数据 集 。 
* OUTEST 王 数据 集 名 称 存储 参数 估计 值 . 最 大 似 然 度 对 数值 。 与 CLASS 语句 
JE. 

* COVOUT 在 输出 的 数据 集 里 存储 参数 估计 值 .最 大 似 然 度 及 协 方差 矩阵 。 

* NOPRINT 不 在 屏幕 上 显示 统计 结果 。 

* ORDER—FREQ|DATA|INTERNAL|FORMATTED ( 仅 对 分 类 变量 而 言 )。 

其 中 : FREQ 要 求 按 频数 降序 显示 结果 。DATA 要 求 按 原始 数据 水 平 的 次 序 显示 
结果 。INTERNAL 要 求 按 内 部 数据 的 格式 显示 结果 。FORMATTED 要 求 按 外 部 数据 
的 格式 显示 结果 。 


3. MODEL 语句 的 格式 : 有 以 下 两 种 。 

1) 模型 一 

MODEL T(* 追踪 变量 v(1 3))- v1 v2/ 选 项 2; 

模型 一 表示 : TT 是 因 变量 ,v 是 追踪 指示 变量 。 

当 v 值 为 (1 3) 时 工 是 非 追 踪 变 量 或 称 终 检 变量 。 当 v 值 不 是 (1 3) 时 工 为 生存 
时 间 。 

vl 和 v2 是 协 变量 ,但 不 允许 它们 的 交互 效应 。 协 变量 是 分 类 变量 时 可 作为 主 效应 。 

例 1: 

MXELT* v(L 3)= sex age; /* v fé tB ERE ΠΕ, sex 和 age 是 协 变量 ,sex 是 分 类 变量 * / 

2) 模型 二 


MODEL (Tl T2)- vl v2/ 选 项 2; 
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模型 二 表示 : ΤΙ 是 追踪 变量 的 下 界 , 若 缺失 T1. 则 用 上 界 T2 作为 左 追 踪 值 。T2 是 
追踪 变量 的 上 界 , 若 缺失 T2, 则 用 下 界 Τι 作为 右 追 踪 值 。 


例 2: 

MODEL (Tl T2)= sex age; / τι fll 了 2 是 因 变量 的 范围 ,形成 区 间 追 踪 。sex 和 age 
是 协 变量 * / 

ΒΙ 3: 

MODEL (Tl T2)- ; /* TA 了 2 是 区 间 追 踪 。 只 有 默认 的 截 距 项 而 没有 
协 变量 sex age* / 

3) 模型 三 


MODEL events/trials- vl v2/ 选 项 2; 


模型 三 表示 : events 为 成 功 的 次 数 ,trials 为 试验 次 数 。 
例 4: 


MODEL gz/T- sex age; /* 假设 qz 为 成 功 次 数 ,T 为 试验 次 数 * / 
4. MODEL 语 旬 中 的 “选项 2” 内 容 


MODEL 中 的 “选项 2”* 有 以 下 3 类 : 


1) 模型 选择 

*。D 值 的 设 定 : 

D-Weibull /xD 是 Distribution 的 缩写 。 此 处 采用 weibull 4 ffi κ / 

D= Exponential /x* 采用 指数 分 布 * / 

D- Llogistic /* 采用 对 数 逻 辑 斯 蒂 克 分 布 * / 

D- Logistic /* 采用 逻辑 斯 蒂 克 分 布 , 类 同 于 用 Nolog 时 的 对 数 逻 辑 斯 蒂 克 分 布 * / 
D= Gama /* SK αι 

D= Nomal /* 采 用 正 态 分 布 ,类 同 于 用 Nolog 时 的 对 数 正 态 分 布 * / 

D= Inomal /* 采用 对 数 正 态 分 布 * / 


* NOLOG 不 对 因 变 量 进行 对 数 转换 。 

* INTERCPT 王 指定 值 要 求 截 距 项 改 为 “指定 值 ”。 

* NOINT 若 无 初 始 的 截 距 项 , 则 截 距 项 置 0 值 。 鉴 于 常 对 因 变 量 做 对 数 转换 , 截 
距 项 通常 为 没有 变换 的 因 变量 的 常量 。 

* INILIAL== 初 始 值 ”给 协 变 量 回归 系数 设置 初始 值 。 收 敛 困难 时 ,很 有 用 。 

以 下 4 项 用 于 参数 说 明 。 

* SCALE= 值 ”用 该 * 值 ”作为 参数 的 初始 值 。 对 于 指数 模型 , 它 同 固定 的 SCALE 
—] Weibull 模型 。 

* NOSCALE ”要求 刻度 参数 保持 固定 。 若 不 指定 SCALE 王 值 . 则 刻度 默认 为 1。 
若 生 存 变 量 为 对 数 转换 . 则 刻度 参数 的 作用 是 原始 响应 的 寡 转 换 。 

* SHAPEI 一 值 ”形状 分 布 (参数 ) 的 初始 值 。 如 果 规 定 的 分 布 与 此 参数 无 关 , 则 此 
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项 不 起 作用 。 

NOSHAPE1 第 一 个 形状 分 布 ( 参 数 ) 必 须 固 定 。 

模型 拟 合 度 的 选项 

CONVERGE 王 值 ”收敛 值 。 默 认 ( 即 预 置 值 ) 为 0. 001。 

MAXIT 一 值 ”允许 迭代 的 最 大 次 数 , 默 认为 50 次 。 

SINGULAR-n 检验 枢纽 值 , 它 至 少 是 原始 对 角 值 的 n 倍 。 默 认为 1E 一 12。 
输出 的 选项 

CORRB ”要求 显 示 参 数 估 计 的 相关 和 矩阵。 

COVB 用 逆 矩 阵 作 为 参数 的 协 方差 矩阵 。 

ITPRINT 显示 迭代 过 程 及 梯度 和 第 二 阶 微 商 矩阵 (hessian) 的 最 终 估 计 。 


. 输出 语句 : OUTPUT DATA— 4 选项 3 


其 中 选项 3 的 内 容 如 下 : 


6. 


CENSRED- 7E fit v 变量 v 为 追踪 的 指示 变量 名 。 若 个 案 中 含有 追踪 则 v 值 
取 1, 和 否则 ν--ο. 

CDF=v1 将 累积 分 布 函 数 的 估计 值 存 和 人 ν 变量 中 。 

CONTROL- v2 这 里 的 v2 为 数据 集 里 的 变量 ,用 来 控制 分 位 数 估计 值 。 当 
v2 一 1 时 则 对 所 在 的 个 案 计 算 *“QUANTILE= 值 1 值 2 范围 的 估计 值 。 和 否则 内 
部 计算 估计 值 。 若 省 略 CONTROL 项 , 则 计算 全 部 个 案 的 所 有 分 位 数 。 若 有 第 
三 种 模型 "+MODEL C/n- "ji. 则 不 能 使 用 CONTROL== v2” 项 。 

OUT=D1 指定 数据 集 名 称 为 DI。 若 省 略 此 项 , 则 用 DATA n 作为 数据 集 
名 称 。 

P( 或 Predict) — v3 将 分 位 数 估计 值 (或 概率 值 ) 存 入 v3 变量 中 。 对 于 第 三 种 
模型 “MODEL C/n 二 =”, 则 计算 1 一 F( 一 X'B) 值 ( 即 概率 值 )。 

QCQuantiles) 一 值 1 值 2 指定 需要 计算 的 分 位 数 。 分 位 数 必须 在 0 一 1 之 间 
(不 含 0 和 1)。 默 认为 Q=0.5。 对 于 第 三 种 模型 “MODEL C/n 一 ”, 则 不 能 指定 
“Q= 值 1 值 2” 项 。 

STD ERR —v4CGEJH STD=v4) 将 分 位 数 估计 值 或 X'g 的 标准 误差 存 人 v4 
变量 中 。 对 于 “MODEL C/n 一 ”模型 , 则 计算 X'g 的 标准 误差 。 这 些 估计 可 用 来 
计算 分 位 数 的 置信 区 间 。 

XBATE-—v5 将 X'B 的 计算 值 存 人 v5 中 。X 为 协 方差 向 量 ,B 为 参数 估计 的 向 量 。 


条 件 限制 


1) 缺失 值 的 处 理 
若 一 个 个 案 的 因 变 量 ( 或 某 个 自 变 量 sensor 追踪 变量 ) 含 有 缺失 值 : 则 回归 分 析 


时 删除 该 个 案 。 如 自 变量 不 含 缺 失 值 , 则 继续 计算 其 预测 值 。 


2) 不 允许 MODEL 语句 指定 交互 作用 
1E LIFEREG 过 程 中 指定 “MODEL Y=v1 v2” 是 正确 的 ;但 车 指定 “MODEL Y=v1 
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v2 vl κ v2” 则 是 错误 的 。 
1322 UFEREG 过 程 的 应 用 实例 


ΘΙ 5. 引用 英文 SAS 中 的 发 动机 失效 例子 。 

这 是 一 个 发 动机 因为 运行 发 热 ( 温 度 ) 使 用 了 一 段 时 间 便 失效 的 生命 分 析 实 例 。 这 
是 美国 Kalbfleisch 与 Prentice(1980. 5) 提 供 的 .并 用 Weibull 模型 及 对 数 正 态 模型 来 拟 
合 数据 的 。 数 据 见 程序 13. 1 。 

程序 13. 1: 发 动机 数据 。 


DATA TIME; 
* 以 下 的 time 是 发 动机 寿命 。censor 是 追踪 的 指示 变量 ,tenp 是 工作 温度 ; 
INEUT time censor tenp@ @ ; /* censor=1 时 ,time 是 寿命 时 间 。censor= 0 时 ,time 是 右 追 踪 


变量 * / 

z= 1000/ (273.2+ tenp) ; 

CONTFOL- ( N > 40); /* SN 为 内 部 控制 变量 ,代表 个 案 号 的 序号 。 当 _N_ 等 于 41~ 45 
时 ,变量 απο, 值 为 1, 并 输出 本 例 数据 最 后 5 个 个 案 。 
否则 CONTROL Ἢ ο». / 


CARDS; 
8064 0 150 8064 0 150 8064 0 150 8064 0 150 8064 0 150 
8064 0 150 8064 0 150 8064 0 150 8064 0 150 8064 0 150 
1764 1 170 277 1 170 3442 1 170 3542 1 170 3780 1 170 
4860 1 170 5196 1 170 5448 0 170 5448 0 170 5448 0 170 
408 1 190 408 1 190 1334 1 190 1334 1 190 144 1 190 
1680 0 190 1680 0 190 1680 0 190 1680 0 190 1680 0 190 
0408 1 220 0408 1 220 0504 1 220 0504 1 220 0504 1 220 
0528 0 220 0528 0 220 0528 0 220 0528 0 220 0528 0 220 
»; 6 338 0 150 ο 170 - 0 190 . 0 220 

PROC  LIFEREG CUIEST- MODELS; 

A:MODEL TIME * CENSOR(0)= z; / * censor- ΟΠΗ , time Jé 4138 E * / 

* 下 面 对 因 变量 进行 对 数 转 换 。Eibull 模 型 采用 极 值 基准 分 布 拟 合 。 对 数 正 态 模型 用 正 态 基 
准 分 布 拟 合 ; 


B: MIEL TIME * CENSOR (0)= z/DIST- INORMAL; 
* 下 面 语句 要 求 计算 三 个 百 分 位 数 的 标准 差 、 预 测 值 ,只 对 coNTROL= 1 的 个 案 计 算 分 位 数 及 
其 他 值 ; 
OUTPUT CUT= OUT1 QUANTILES- .1 .5 .9 STD ERR- STD 
P= PREDTIME CONTROL CONTROL; 


PROC PRINT DATA= MODELS; 


ID _MDpET ; /* 特殊 变量 _MOCELS = A 时 表示 个 案 来 自 模型 Ax / 
DATA time; /* 响应 的 95% 置信 区 间 * / 
SET OUTI; /* 从 cUTFOT 语 名 存储 到 的 数据 集 σστι 中 ,复制 标准 差 的 估计 
值 x / 


LTIME- LOG (PREDTIME) ; /* 将 预测 值 取 对 数 * / 
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4. 'TTYERE: 


stde- STD/PREDTIME; 
UPFER- EXP (LTIME* 1.6* stde); /* 把 置信 区 间 还 原 为 原来 的 刻度 * / 
IOWER- EXP (LTIME- 1.6* stde); 
PROC PRINT; 
ID temp; /* 用 temp 识 别 个 案 * / 
TITE ' 分 位 数 估 计 和 置信 区 间 人 估计? 
RUN; 
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(5) 模型 B: 对 数 正 态 模型 用 正 态 基准 分 布 拟 
13.1 发 动机 寿命 分 析 
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Weibull Ὁ Converzed 3. 396. - 9.72699 — 0.32608 


ogncrol ο — -27.15 3 i EE 0.59716 
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HFR qz 
(4) 各 个 个 案 的 预期 夺 命 结果 

图 13.1 CD 


结果 分 析 : 

在 输出 结果 中 除了 OUT 语句 中 的 变量 外 ,还 有 DATA 步 所 建立 的 新 变量 LTIME, 
STDE,UPPER,LOWER. 

(1) 回归 方程 可 靠 性 分 析 

从 图 13.1 的 (al 和 (b) 两 小 图 看 , “Pr > ChiSq" Jy 0. 0001 以 下 .这 两 个 概率 值 都 分 
别 小 于 a ffi 0. 05 ,说 明 两 个 模型 都 拟 合 数据 。 

由 此 可 以 根据 图 13. 1(a) 写 出 模型 A 的 寿命 回归 方程 ,根据 图 13.1(b) 写 出 模型 B 
的 寿命 回归 方程 。 

(2) z 系数 

z 系数 是 将 摄氏 温度 转换 为 绝对 温度 后 取 倒 数 。 从 图 13. 1(c) 看 ,模型 A 的 z 值 为 
9.72699 ,模型 B 的 z 值 为 9. 92837. 

G) 置信 区 间 

图 13.1(d) 是 模型 B 的 置信 区 间 , 它 给 出 了 各 种 温度 下 .10% .50% 90 中 分 位 数 ( 见 
PROB 栏 ) 的 预测 寿命 .以 及 90%% 置 信 区 间 的 上 下 限 。 从 图 13. 1(Cd) 看 .温度 为 220 度 时 ， 
90% 分 位 数 的 预测 寿命 为 1133. 05. 

例 6: 引 自 英文 SAS 中 肺癌 患者 的 生存 数据 .TT 为 寿命 时 间 。 变 量 见 表 13. 1, 数 据 
见 程序 13. 2(a) , 试 分 析 其 寿命 。 

根据 表 13.1 的 变量 和 题 意 ,编辑 出 的 程序 13. 2(a) 如 下 。 

程序 13. 2(a) : 
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表 13.1 肺癌 患者 的 生存 变量 


变 量 名 取 值 
CELL( 细 胞 类 型 ) 1 一 鱼鳞 状 2 一 小 型 3 二 大 型 4 一 腺 状 
THERAPY( 疗 法 ) 1 一 标准 (standard) 2 一 试 验 (test) 
PRIOR( 曾 治疗 否 ) 1 二 治疗 过 (yes) 2 一 未 治疗 Cno) 
AGE( 年 龄 : 岁 ) EE 
DIAGTIME( 从 诊断 到 治疗 的 年 数 ) -年 
KPS( 手 术 前 的 综合 体质 ) 评分 


DATA valung; 
LABEL T= "追踪 时 间或 非 追 踪 时 间 ' kps= ' 手 术 前 的 综合 素质 评分 ' 
diagtime- ' 从 诊断 到 手术 治疗 的 时 间 ' 
age- ' 年 龄 ' prior= ' 事 先是 否 有 治疗 ' cell= ' 细 胞 类 型 ' 
therapy- Ur ik '; 
INPUT therapy cell t kps diagtime age prior $ @@ ; 
CENSOR- (t« 0); 


t-ABS(0; 
CARDS; 
1 1 072 60 6ο η 1 1 411 70 05 6G yll 228  €0 3 38n 
1 1 126 60 63y 11 118 70 1 65y11 10 20 5 49n 
1 1 0822 40 10 69y11 110 80 29 68n11 34 50 18 43y 
1 1 -10 70 ο 70n11 042 60 04 81n11 008 40 358 63y 
Jn Ἔ 144 30 4 63n11 -25 80 9 52y11 1 70 11 48 y 
1 2 30 60 3 6e n1i2z2 384 60 9 42ni2 04 40 02 35n 
1 2 54 80 4 63Υ 12 13 6 4. 56512 -2 40 03 55η 
E τα -9 60 5 6n12 153 6) 14 63y12 59 30 2 65 n 
πο 117 80 3 46n12 016 30 04 53y12 151 50 12 69n 
r 2 22 60 4 686112 56 80 12 43y12 21 40 2 Sy 
1 2 18 20 15 42n12 139 80 02 6 n12 20 30 5 65.5 
1 2 31 75 3 5512 02 70 02 55n12 287 60 25 66 y 
i 2 18 30 4 6n12 51 60 i 6312 122 80 28 53η 
π 2 27 6 6 n12 54 70 I 6n12 007 50 7 Tn 
w 2 63 50 1 48n12 392 40 04 68n12 10 40 23 6y 
1 4 08 20 19 6ινυν 1 4 92 70 10 6n14 35 40 6 62 n 
1 4 117 80 02 38n14 132 80 5 50n14A 12 50 4 63y 
1 4 162 80 5 6&n14 003 30 03 43n14 95 590 4 An 
1 X ay; 50 16 ον t3 1e 80 5 &n13 216 50 15 52η 
1-3 553 70 2 4n13 z 6 12 63η 1 3 012 40 12 6&8 y 
uc 260 80 5 613 2 8 12 41y13 156 70 2 66n 
x» 5. -W@W .90 2 4G n1i3 143 90 B. en t. 3 105 80 1 66n 
Ek 3 103 80 5. πη $3 250 70 8 53y 13 10 60 13 37y 
Ac 99 90 12 5y21 112 $80 6 €e6n21 -87 80 48 n 
z- Κα c 50 0 52 y 2t 242 50 1. 701 2 T 991 70 了 Wy 
8 11 70 3 Ἐπ 23 01 22 21 66Υ21 587 60 3.58 η 
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2. T 389 90 2 全 本 033 30 06 64 n2 25 20 36 63n 
2 t s^ 0 13 #211 467 90 2 6 n2 201 80 28 £22 y 
2X O01 50 3 35u21 30 70 1 63n21 044 60 13 Ον 
zd 283 90 2- E 7 15 50 13 4y 

2 2 25 30 2 6n22 -1053 70 22 36y22 21 20 04 7n 
es ὑΦ Y3 30 2 €6n22 087 60 02 60n22 02 40 36 44 y 
2 2 20 30 9 54y22 007 20 11 66n22 24 60 8 49n 
ο 2 99 70 3 7422 008 80 0? 68n22 99 85 4 62η 
2 2 6l 70 2 7n22 05 πο 02 70n22 95 70 1 6l n 
2 2 90 50. F 71m22 051 30 8 59y22 29 4 8 67n 
2 4 24 40 02 60n24 018 40 05 69y24 -83 99 3 Jn 
2 4 31 80 03 39n24 051 60 05 &n24 90 60 22 5y 
2 4 52 60 03 43n24 033 60 03 70n24 08 50 05 66n 
2 4 36 70 08 6 n24 048 10 0 81n24 07 40 04 Bn 
2 4 140 70 03 63n24 186 90 03 60n24 84 80 4 en 
2 4 019 50 10 42n24 45 40 B 69n24 80 40 04 63n 
2.3 02 60 04 45n23 1644 70 15 68y23 19 30 04 39 y 
2 8 053 60 12 66n23 015 30 05 63n23 43 60 1 49 y 
2 3 340 80 10 6 Υυ 2 3 133 5 01 6 η 2 3 111 60 05 64η 
2 3 2303 70 18 67y23 38 80 04 65n23 049 30 03 37n 
P 

PROC FORMAT; 


VALUE cellf 1- "fü 4A " 二 小型， CKA) ᾱ- dA s 
FORMAT cell  cellf.; 
PROC LIFEREG; 
CLASS therapy cell prior; 

MODEL t* CENSOR(1)- therapy cell prior kps age diagtime/D- WEIBULL; 

OUTPUT OUT- CUT2 P= PRED; 

RUN; 

程序 13. 2(a) 说 明 : 

CENSOR= (<0); 指定 το 的 个 案 为 追踪 ( 失 访 ,还 活着 ) 数 据 。 

t— ABSCO : 将 因 变 量 值 全 部 转换 为 正 值 。 

CLASS; 指定 cell 变量 等 为 分 类 变量 。 

MODEL t * CENSOR(1) 语 句 : 指定 t 为 因 变 量 (寿命 时 间 )、CENSOR(1) 为 追踪 变 
量 、1 为 追踪 指示 值 。 即 当 t 为 负 值 时 为 追踪 值 CCENSOR 王 1)。 当 t 为 正 值 时 ,为 非 追 
踪 值 CCENSOR 一 0) 。 

运行 程序 13. 2(a) 产 生 图 13. 2 所 示 的 结果 。 

对 图 13. 2(b) 结 果 的 分 析 : 

LIFEREG 输出 结果 的 核心 部 分 要 看 每 个 变量 的 “Pr > ChiSq” 值 。 从 图 13. 269) 
看 "ΚΠΕ Intercept 的 该 Pr 值 0. 0071 小 于 a 值 0.05 .很 显著 。cell( 细 胞 类 型 ) 变 量 和 kps 
(手术 前 的 综合 体质 ) 变 量 的 Pr > ChiSq 值 都 小 于 0. 0001, 因 此 也 都 小 于 a f& 0. 05 ,非常 
显著 。 而 其 余 变 量 的 “Pr > ChiSq” 值 都 不 显著 。 所 以 模型 中 只 需要 保留 cell, kps 和 
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(a) Weibull 分 布 的 概况 
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(b) 茶 准 分 布 为 Weibull 分 布 的 模型 检验 
13.2 ” 拟 合 基准 分 布 为 Weibull 分 布 的 输出 结果 


Intercept 三 个 变量 。 为 此 ,对 程序 13. 2(a) 最 后 几 条 语句 (特别 是 “MODEL t * CENSOR) 
一 therapy cell prior kps age diagtime/D 二 WEIBULL;”) 换 成 如 下 语句 ( 见 程序 13. 2(b))。 
程序 13. 2(b) : 
QE: 前 面 的 语句 与 程序 13. 2(a) 相 同 ) 


PROC LIFEREG; 
CLASS therapy cell; 
MEL t * CENSOR(1)= cell kps/EXPONENTIAL; 
OUTPUT OUT- CUI2 P= PRED; 
PROC PRINT; 


然后 重新 运行 程序 13. 2(b) 产 生 简要 的 输出 结果 如 图 13. 5.81 13. 4 所 示 。 


279 


- ΟΕΚ; PROC PRINT 正在 去 行 ] 
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(a) Weibull 分 布 的 变量 水 
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(b) weibull 分 布 的 最 终结 果 
13.3 拟 合 基准 分 布 为 Weibull 分 布 的 新 结果 1 


EIL - 
KHE) 编辑 (E) 格式 (0) 查看 (Y) AE 
Obs T ks dstine sge prier πμ JRB PRED ~ 
E] 1 FE 1 o $5 136 
To 5 uy n o G5 dix 
E] 3 FEM 1 ῃ GE 6 
E] 5 Bor i 5 GS 5 
To u εν ῃ Ἢ GE 1 
m 5 9 1 5 $5 3 
do 1 LEE i 5 ὃς δ 
wo [E 1 5 OS οὔ 
το 3 o a 1 o os 12er 
E] 4 S > 1 o ος C. 
ΕἼ eo n 1 5 os 46:108 
E] ἃ Won 1 5 ος 62050 
m 12 Boy 1 5 os nmzer 
d z $o y 1 5 DEC 
ΕἼ 15 moon 1 5 os 18m0 
m 2 LE 1 o ΠΕΣ 
εν ame τὸ [ΠΗ 5 1 o z 
FENCE" s y 5 1 o Ew 
FE æ ΕΠΗ 5 1 5 187.640 
5 20o 50 5 y 3 i o 167.540 
5 is To 5 κ 3 1 5 124.407 
FEN s 名 n 3 1 1 226.601 
6 iso Ὁ moz H 1 Ἢ ΕΙ 
6 105 Ὁ mon H i E) 187.640 
Π 2 E] 4 2 o 
如 E E] H H 5 
E] 3 中 H H 1 
ΕἼ 3 E] H E 
E] 5 ΓΙ H 5 
FEE! E] H o 
E] 3 ds H 5 
E] 5 0 4 5 
-— ΕΕ S L3 XE e ER 


ull 分 布 的 新 结果 2 


280 $. "TTE: 


对 图 13. 3 结果 的 分 析 : 

。 数据 集 的 名 称 为 WORK. Valung。 

。 因 变 量 LOG(T) 为 追踪 寿命 。 

。 追踪 变量 为 CENSOR ,追踪 指示 值 为 1。 

。 非 追踪 个 案 128 个 ,追踪 个 案 9 个, 而且 是 右 追 踪 。 

。 采用 指数 最 大 对 数 似 然 估计 ,其 值 为 一 197. 55935。 

* ChiSquare: 卡 方 值 ,用 于 检验 “参数 为 0” 的 假设 。 

。 PrChiSq: 这 是 主要 的 结果 ,表示 ChiSquare 的 概率 值 (与 a 值 比较 )。 

(1) 模型 拟 合 度 

从 图 13.3(b) 上 面 看 ,cell( 细 胞 类 型 ) 变 量 和 kps( 手 术 前 的 综合 体质 ) 变 量 的 Pr > 
ChiSq 值 都 小 于 ο. 0001, 因 此 也 都 小 于 a ffi 0.05, 非 常 显 著 。 所 以 模型 拟 合 度 很 好 。 

(2) 生命 分 析 

根据 表 13. 1, 再 看 图 13. 3(b) 的 下 方 : cell— 1 为 “鱼鳞 状 ” 癌 细胞 ,cell= 二 2 为 小 细胞 ， 
cell 一 3 为 小 细胞 ,cell 一 4 为 “ 腺 状 ? 癌 细胞 。 由 于 cell( 细 胞 类 型 ) 有 这 4 个 水 平 , 便 按 1、2、3、 
4 升序 排序 ,并 以 第 4 项 (ADENO, 腺 状 ) 项 作为 基准 项 (分 母 ) ,其 他 项 (分 子 ) 分 别 与 之 比 
较 。 可 见 ,cell 王 2( 小 细胞 ) 将 是 cell— 4 C' a AR ΒΙΠΕ) ^E ERSTE TR] μ9 ον" (6501. 47 倍 ) 。 

(3) 挖掘 生存 时 间 

生存 回归 方程 为 : 

T= ey 一 e 3289 十 cell » 系数 十 0. 0297 » kps-- Scall * Wp 一 e2. 3289 十 cellw 系数 十 0.0297 * kps 十 1* Wp 

式 中 ,cell 为 细胞 类 型 ,Wop 为 基本 分 布 ( 如 图 13. 3 中 的 EXPONENTIAL 分 布 ) 的 5096 
分 位 数 的 值 。 

(4) 当 cell( 细 胞 类 型 ) 相 同 的 情况 

Ἢ cell 相同 时 ,寿命 预测 值 完全 取决 于 kps( 手 术 前 综合 体质 评分 )。 

例如 ,根据 图 13.4 所 示 的 结果 , 当 产 生 如 下 值 时 : 


CELL OBS KPS PCPRED) 
鱼鳞 状 (编码 为 1) 1 60 126. 254 
鱼鳞 状 (编码 为 1) 2 70 169. 931 


则 有 : Log(P2/P1)= Ln(169. 931/126. 254) —0. 2971--10 * 0. 02971 
这 个 0. 02971 正好 是 图 13. 3(b) 中 kps 的 Estimate ffi. 
(5) kps 值 相 同 但 cell 值 不 同时 的 比较 : 


CELL KPS OBS P(PRED) 
鱼鳞 状 ( 编 码 为 1) 60 126. 254 
腺 状 ( 编 码 为 4) 60 113 42. 307 


则 有 : Log(P1/P113) — Ln(126. 254/42. 307) —1. 09333 
这 个 1.09333 正好 是 图 13. 3(b) P cell— 1Cf& SE3RO I] Estimate 值 。 
$| 7. 从 某 医院 随机 选择 20 例 肺癌 患者 ,记录 他 们 手术 后 寿命 时 间 及 住院 号 、 性 别 


(变量 为 sex)、 年 龄 Cage) 甲 胎 蛋 白 ( 用 νι 表示 ,正常 值 二 20ng/ml)、 血 红 和 蛋白 (用 v2 表 
示 , 正 常 值 为 110 一 160g/1)。 试 用 LIFEREG 过 程 进行 生存 回归 ,并 找 出 影响 寿命 的 


因素 。 


根据 数据 和 题目 要 求 ,编辑 出 以 下 的 程序 13. 3(a)。 


程序 13. 3(a): 


DATA ai; 
ΛΕΕΙ, id = ME bi € ' sex- ' 性 别 ' age- "4E Wb" vi- ' 甲 胎 蛋 白 ' v2- "IL ZEE" 


CARDS; 


3001 
3103 


158 
26 
165 
1 49 
256 
273 
2 60 
259 
1 50 
1 49 


08/20/90 
01/31/90 
04/30/85 
08/28/86 
08/25/87 
09/26/85 
09/26/90 
09/30/89 
08/30/90 
08/24/88 


PROC LIFEREG; 


CLASS sex; 


t= "寿命 时 间 : A 
INEUT id $ sex age opdate rmadyy10. ddate nmddyy10. censor vl v2 668 ; 
t= INT ( (AGdate-opdate) /30) ; 


08/21/99 
03/30/99 
05/29/96 
06/28/98 
08/24/95 
11/28/95 
08/28/99 
09/28/98 
08/28/99 
06/05/97 
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/* ddate 为 1960.1.1 至 去 世 的 天 数 ,cpdate 为 
1960.1.1 至 手术 止 的 天 数 * / 


4 20 145 3002 2 60 
2 23 158 3104 2 68 
1 22 161 3206 1 58 
1 25 160 3308 2 64 
2 26 140 3310 1 70 
1 19 162 35122 68 
1 25 160 3714 1 58 
2 18 170 3816 1 60 
1 22 162 4018 1 48 
1 26 165 4120 2 60 


09/26/91 
02/28/86 
05/28/86 
09/26/84 
09/28/84 
08/16/88 
08/20/90 
05/31/87 
07/25/86 
10/20/89 


06/25/98 4 25 160 
03/27/93 4 26 165 
05/31/99 1 28 150 
08/26/97 1 24 158 
10/30/96 2 18 165 
08/31/99 1 23 165 
09/28/99 1 20 163 
09/30/98 1 24 168 
08/26/95 2 28 161 
09/18/94 1 21 160 


/* sex 为 分 类 变量 * / 


MDDET t * CENSCR(4)- sex age v1 v2/D- WEIBULL; 


/* 程序 13.3(a) 说 明 : censor 变量 是 失效 追踪 ) 的 指示 变量 , 当 oensor- 4 时 为 失效 数据 需要 追踪 和 
检测 * / 


/* (4) 为 追踪 变量 ,等 号 右边 为 协 变量 。t 为 因 


变量 ,寿命 时 间 * / 


运行 程序 13. 3(a) 产 生 图 13. 5 所 示 的 结果 。 


从 图 13. 5(b) 看 出 .sex 和 age 变量 的 Pr > ChiSq 值 都 小 于 au 值 0.05 ,很 显著 。 但 
vl 和 v2 变量 的 Pr > ChiSq 值 都 大 于 a 值 0.05. 不 显著 , 故 将 vl1 和 v2 变量 去 掉 然 后 重 


新 建立 回归 模型 如 下 ( 见 程序 13. 3(b))。 
程序 13. 3(b) : 


DATA ai2; 
LABEL id = ' 住 院 号 ' sex- ' 性 别 ' age- ' 年 龄 ' vi ' 甲 胎 蛋 白 ' v2- "IL ZEE FA" 


t= "寿命 时 间 1 '; 


INEUT id $ sex age opdate mmdyy8. ddate nmcdyy8. censor vl v2 ; 


t= INT ( (aGdate-opdate) /30) ; 


/* ddate 为 1960.1.1 至 去 世 的 天 数 ,cpaate 为 1960.1.1 至 手术 


止 的 天 数 * / 
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4. Hiis st 


- E Lin NE € PROC PRINT 正在 运行 ] 


Model Information 
Data Set WORK. AT 
Dependent Log(t) Saa: 月 


censor 


20 
17 
Los Likelihood 6. 6415560239 


Level Information 


Levels Values 


- EE acia (CEER) PROC PRINT 正在 
πι LAT. ARS) 


RAE) 
E aD s E EET η 402 


Type III Analysis of Effects 


Effect DF 


sex 


Analysis of Paraneter Estimates 


Standard 95% Confidence 
Error Linit 


Parameter DF Estimate Pr > ChiSq 
Intercept 1 ο. 0437 | 
1 0. 0487 
ο . 
1 7.61 0. 0058 
1 3.07 ο, 0736 
1 9. 00 0. 3784 
1 
1 


(b) Weibull 分 布 的 最 终结 果 


13.5 肺癌 数据 拟 合 基准 分 布 为 Weibull 分 布 的 结果 1 


CARDS; 

3001 1 58 08/20/90 08/21/99 4 20 145 
3002 2 60 09/26/91 06/25/98 4 25 160 
3103 2 62 01/31/90 03/30/99 2 23 158 
3104 2 68 02/28/86 03/27/93 4 26 165 
3105 1 65 04/30/85 05/29/96 1 22 161 
3206 1 58 05/28/86 05/31/99 1 28 150 
3207 1 49 08/28/86 06/28/98 1 25 160 


3308 2 64 09/26/84 
3309 2 56 08/25/87 
3310 1 70 09/28/84 
3411 2 73 09/26/85 
3512 2 68 08/16/88 
3613 2 60 09/26/90 
3714 1 58 08/20/90 
3715 2 59 09/30/89 
3816 1 60 05/31/87 
3917 1 50 08/30/90 
4018 1 48 07/25/86 
4019 1 49 08/24/88 
4120 2 60 10/20/89 


P 


Lace pom 


08/26/97 1 24 158 
08/24/95 2 26 140 
10/30/96 2 18 165 
11/28/95 1 19 162 
08/31/99 1 23 165 
08/28/99 1 25 160 
09/28/99 1 20 163 
09/28/98 2 18 170 
09/30/98 1 24 168 
08/28/99 1 22 162 
08/26/95 2 28 161 
06/05/97 1 26 165 
09/18/94 1 21 160 


PROC LIFEREG; CLASS sex; /* sex 为 分 类 变量 * / 
MODEL, t * CENSOR (4)= sex age/D- WEIBULL; 
OUTPUT OUT- OUT? P= PRED; 


PROC PRINT; 


运行 程序 13. 3(b) 产 生 图 13.6 至 图 13. 7 所 示 的 结果 。 

图 13. 6 的 结果 分 析 : 

图 13.6(c) 用 于 观察 原始 数据 是 否 顺利 地 被 SAS 系统 统计 处 理 , 以 及 预测 的 结果 如 
这 是 参考 性 的 图 形 。 


- — a - 


€ C 标 是 7 iii. PRINT 正在 运行 ] 


ο a LOOL PEKT 


08:38 Wednesday, May 1 
The LIFERI 


Model 1 


Data Set 

Dependent Variable 
Censoring Variable 
Censoring Value(s) 
Number of Observations 


Noncensored Values 


Right 


Censored Values 


Left Censored Valus 
Interval Censorsd Values 


Name 


of Distributi Weibull 


Loz Likelihood 17. 945155464 


Alaorithm 


Class Level Information 
Levels Values 


2. gd 


converse 


(a) 基本 分 布 为 Weibull 分 布 的 模型 概况 
图 13.6 基本 分 布 为 Weibull 分 布 的 全 部 结果 
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T SAS - [输出 - 《无 标题 》 PROC PRINT 中 在 这 和 
AO W46 AW LAD FRAIRC) WAW) ΠΕ) 
M A 


Algorithm converged. 


Typo III Analysis of 


Analysis of Parameter Esti 


95% Confi 
Parameter DF Estinate s Square Pr > 


Intercept 2380 . 960. 38 
sex 032 . 13 
nex 

ago 

Scale 

Weibull Shape 


FO NAE ΜΚΟ) DAT O EAW PDE EEE 
]|»t a θὰ ο A «coe 


o 
5 
5 


Gdate censor -PROB. PRED | 


0. 269. 061 
258. ΤΕΙ 


age νι 


a 
E 
e 


2 
E 
somo 


5, 
DOM) 


ο ο ο f 
E 
5 


re 


Ὡς ισπ ος οσα σσ 
m 
D 
ο 
ds στ 0 OCqOcO m-o000 
55565666666666Θ6666556. 


(ο) 基本 分 布 为 Weibull 分 布 的 个 案 及 统计 量 
13.6 ( 续 ) 


从 图 13.6(a) 看 出 ,本 批 数据 共 有 20 个 个 案 ( 注 意 , 如 果 此 时 显示 的 个 案 数 目 不 符 ， 
则 说 明 数 据 定义 出 错 . 必 须 先 对 INPUT 语句 加 以 调试 ) ,censor —4 的 个 案 为 追踪 的 观 
测 值 (Censoring Value). 

从 图 13.6(b) 看 出 : 修改 后 的 程序 及 输出 结果 ,与 图 13. 5(b) 不 同 ,而 且 sex 变量 由 
原来 的 显著 变 成 了 不 显著 (“Pr 二 ChiSq” 值 0.2343 二 a f 0.05) 。 只 有 age 变量 与 生存 时 
间 有 关 。 


生存 时 间 T= e” = e- 238+0. 0058 * age+SCALL * Wp 一 e5. 238+0. 0058 * age 十 0. 0785* Wp 


可 简化 为 T= e5 238+0. 0058 age 


zs 生存 分 析 
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133 用 LIFETEST ZZ, 3E zit for t 6 di 5 


LIFETEST 过 程 可 对 有 追踪 (未 失效 ) 的 数据 进行 生存 分 布 的 非 参 数 估 计 , 以 及 计算 
因 变 量 与 自 变 量 相关 性 的 秩 次 检验 结果 。 非 参数 估计 是 分 层 进行 的 , 秩 次 检验 是 合并 
的 。 另 外 还 输出 “检验 各 层 之 间 一 致 性 ”的 统计 量 。 因 此 ,LIFETEST 过 程 是 生存 检验 
过 程 。 


1331 生存 分 布 函数 SDF 及 其 他 函数 


对 有 追踪 (未 失效 ) 的 数据 进行 非 参 数 估计 的 第 一 步 ,是 估计 寿命 分 布 ,因此 首先 要 
知道 生存 分 布 函数 ( 即 SDF) 在 T; 处 的 值 。 


1. 用 LIFETEST 过 程 进行 非 人 参数 估计 的 步 又 


(1) 车 用 SDF 表示 来 自 总 体 的 某 随 机 样本 , 则 寿命 分 布 在 T, 处 的 值 为 : 
SG) = ProbCT > η) (135.13 
其 中 性 二 刀 是 条 件 成 立 的 概率 。 
(2) 再 用 极限 乘法 计算 寿命 分 布 函数 
用 极限 乘法 (product limit estimate) 计 算 寿命 分 布 函 数 的 公式 如 下 : 


S(T) = ΤΠ (1—D/N) (13. 8) 


3€(13. 80 rP 42 H 1.2.3. n. T; 是 不 同 的 追踪 时 间 ,D; 是 在 T; 时间 点 去 世 的 个 体 
数目 ,Ni 是 在 T; 时 间 点 追踪 的 个 体 数 目 。 


2. 其 他 函数 


(D 累积 分 布 函 数 (CDF)FF() 的 表示 法 : 
Ε(ϱ) 一 1 一 SG) (13.9) 
其 中 ,1 一 SG) 为 死亡 概率 或 失效 概率 。 
(2) 概率 密度 函数 
fO) —FCGORU SC. 
(3) 危险 率 (Hazard) 函 数 的 表示 法 : 
H) = f(»/FG) (13. 10) 


1332 UFETEST 过 程 的 命令 语句 
1. LIFETEST( 生 存 检验 过 程 ) 的 命令 语句 
PROC LIFETEST[ 选 项 ]; / 过 程 名 ,主语 句 。 用 于 调用 后 面 的 语句 和 数据 。 必 须 有 的 


语句 * / 
TIME t * CENSOR(1) -7 /* 必须 有 的 语句 ,其 中 上 上 是 寿命 时 间 变 量 即 因 变 量 ),GNSCRO) 
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4. 444114 5 & d 


表示 指示 变量 是 CENSCR,CENSOR- 1 为 追踪 值 * / 


SIRATA v1 v2 范围 ); /* 由 、.o2 等 表示 变量 表 , 定 义 分 层 的 变量 ,* / 
TEST vi v2 v3; / TEST 语句 中 的 变量 是 被 检验 的 变量 ,如 νι. νο v3 ΕΠΕ κ / 
ID vi; /* 耳语 句 对 输出 结果 起 作用 , 即 用 v1 变量 (其 他 变量 也 行 ) 标 识 寿命 估 
计时 的 个 案 * / 
FREQ v; /* 指定 频数 做 统计 的 变量 * / 
BY v; 
2. 选项 
选项 是 指 以 下 内 容 : 


* DATA = ds s 4 Fi 

* METHOD-—PL|KM|LT|LIFE| ACT 

(其 中 ,PL 或 KM 为 极限 乘法 。LT 或 LIFE 或 ACT 为 寿命 表 法 。) 

* MISSING / x* 将 数字 型 变量 的 缺失 值 (或 字符 型 变量 中 的 空格 ) 作 为 有 效 值 * / 

* OUTTEST —outl / * 指定 输出 数据 集 名 称 为 outl。 那 么 , 秩 次 检验 的 统计 量 、 协 方 
差 矩 阵 、 层 间 的 各 种 卡 方 检验 值 便 可 自动 存 和 outl 文件 中 x*/ 

* PLOTS- Cit dài Fl 44 ERO 

例如 : PLOTS= (S, LLS), RÆ S 和 LLS 两 个 散 点 图 

PLOTS=(S) 或 PLOTS=(SURVIVAL) ,表示 产生 S 寿命 函数 图 

PLOTS-(LS) x PLOTS— CLOGSURVIVADL) ,代表 -LOG(SDF) 

PLOTS-(LLS) πὲ PLOTS—(LOGLOGS) ,代表 LOGCLOG(CSDF)) 

PLOTS-—(H) πὶ PLOTS=( HAZARD) ,代表 危险 函数 

PLOTS- (Ρ) πὲ PLOTS-— (PDF) ,代表 概率 密度 函数 

* INTERVALS-— (数值 表 ) / * 为 寿命 表 法 指定 区 间 终 点 ,初始 值 一 定 为 0。 用 于 

计算 寿命 分 布 函 数 * / 
* WIDTH = fÈ / * 为 寿命 表 法 计算 寿命 分 布 时 指定 区 间 宽 度 。 若 指定 了 
INTERVALS 王 项 . 则 此 项 无 效 */ 
* INTERVAL — fH. / * 为 寿命 表 法 指定 区 间 数 ,默认 为 0。 若 指定 了 INTERVALS 一 
(数值 表 ) 或 WIDTH — , 则 此 项 无 效 */ 
* ALPHA — fH. / * 计算 寿命 估计 的 置信 区 间 的 置信 水 平 ,0. 0001— 值 二 0. 9999。 置 信 
水 平 为 1- ALPHA, 默 认为 ALPHA 一 0.05 ,置信 水 平 为 95% * / 


3. TIME 语句 

TIME t * CENSOR(1.2); /*t 是 寿命 时 间 变 量 ( 即 因 变 量 ), 当 CENSOR — 1. πὲ 
CENSOR —2 时 表示 追踪 值 ( 失 访 )*/ 

4. STRATA 语句 

STRATA age(10,20 TO 60 BY 10): / * age 是 分 层 变量 ,有 [0,10]、[10,20]、[20， 


30].[30.40]. [40,50], [50,60], [ 60. 以 
Ed]—3t7 q3X0E 7 
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5. TEST 语句 
TEST age score / * 列 出 数字 型 自 变量 ,以 便 检验 这 些 自 变量 与 因 变量 的 关联 度 */ 


1333 应 用 举例 


例 8: 这 里 引用 某 医 院 手术 的 一 个 案例 说 明生 存 分 布 函 数 的 计算 法 。 数 据 和 命令 见 
程序 13. 4。 

程序 13.4. 

TTE ' 手 术 后 的 生存 分 布 '; 

DATA AI2; 


LABEL day- ' 从 手术 到 死亡 的 天 数 ' g- ' 个 案 分 组 。 前 10 A — 2H 354829 53 — 2H. 7 
INEUT day Q 8 ; 


CENSOR- day« 0; /» 寿命 时 间 为 负 时 是 追踪 个 案 * / 
day- ABS (day) ; /* 因 变 量 取 正 值 * / 
g-(N >10)+1; /* 前 10 人 一 组 ,其 余 为 另 一 组 * / 
CARDS; 


228 320 400 300 180 220 178 260 198 - 260 
— 230 - 30 415 280 160 250 230 230 223 223 


; 


PROC LIFETEST PIOIS- (5,118); /x 产生 生存 分 布 函数 及 散 点 图 ,* / 

TIME day * CENSOR (1); /* ?4 CENSCR=1 时 为 追踪 个 案 * / 

STRATA g; / g 为 分 层 变 量 , 以 便 比 较 两 层 之 间 的 生存 分 布 的 
一 致 性 * / 

RUN; 


运行 程序 13.4 产生 图 13. 7 所 示 的 结果 。 
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(4) 第 一 组 极限 乘法 寿命 分 布 及 统计 量 
13.7 两 组 手术 患者 的 寿命 估计 
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(b) 第 二 组 极限 乘法 寿命 分 布 及 统计 量 
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Y SAS - [GRAPH1 WORK.GSEG.LIFETE12] 


σα. 


(e) 两 组 寿命 函数 图 


^d ἈΠΕ) RRE) 查看 (Y) IAT) KEARE) πι) MHH) 
z|- aa anaran bRA «e 


STRATA: 67 gl 


* SAS - [GR g- 
(9 两 组 对 数 寿命 国 数 图 
图 13.7 ( 续 ) 


图 13.7(b) 中 的 主要 统计 量 名 称 解释 如 下 : 

Day 因 变 量 , 患 者 从 手术 到 死亡 的 天 数 

Survival 寿命 概率 

Failure 失效 (或 死亡 ) 的 概率 一 1 一 Survival, 见 图 13.7(b) 
Survival Standard Error 标准 误差 

Number Failet 非 追 踪 ( 已 去 世 ) 的 人 数 

Number Left 追踪 (生存 着 ) 的 人 数 

Quartile Estimate 因 变 量 四 分 位 数 估计 

Mean 因 变 量 的 均值 

Point Estimate 点 估计 值 


从 图 13. 7 的 (co) 图 和 (d) 图 看 ,由 于 过 程 命令 使 用 了 “STRARA g” 语 句 , 因 此 生存 估 
计 是 按照 变量 g 的 两 个 值 分 层 比 较 两 层 之 间 的 一 致 性 。 读 者 还 可 以 从 图 13. 7 的 (b) 一 
(d) 几 个 子 图 中 了 解 每 一 层 内 某 一 天 所 对 应 的 生存 概率 、 死 亡 概率 、 标 准 误差 .生存 人 数 、 
死亡 人 数 , 以 及 生存 天 数 的 四 分 位 数 分 析 及 均值 、 标 准 误差 等 。 
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4. ρω 


而 且 , 从 图 13.7 的 Cd) 图 和 (c) 图 看 .用 Log-Rank 检验 时 ,其 “Pr 二 Chi-Square” 值 
0. 8766 大 于 a 值 0.05 ,表明 两 组 寿命 基本 相同 。 同 理 ,用 Wilcoxon 等 其 他 两 种 方法 检验 
时 ,两 组 寿命 也 基本 相同 。 

图 13.7(e) 和 (fD) 是 散 点 图 ,对 应 于 “PLOTS 二 (s,LLS)” 语 句 , 夯 的 是 生存 分 布 函数 
曲线 。 纵 坐标 为 生存 概率 , 横 坐 标 为 生存 天 数 。 由 于 选择 了 “STRARA g"” 语 句 , 所 以 显 
示 两 条 曲线 。 从 图 13.7(e) 和 (f) 看 , 左 侧 较 长 的 线 表 示 第 一 组 , 男 一 条 线 表 示 第 二 组 。 
生存 时 间 的 初期 ( 约 325 天 以 前 ), 两 组 曲线 才 有 所 差别 。 但 当 生 存 时 间 值 变 大 时 ,两 组 
曲线 就 没有 差别 。 

例 9: 有 一 批 胃癌 患者 的 年 龄 .胃癌 发 现 的 病 期 (g 二 1 为 早期 ,g 一 2 为 中 期 ,g 一 3 为 
晚期 ) 及 做 切除 手术 后 的 生存 时 间 (T) 见 程序 13. 5。 试 用 LIFETEST 过 程 对 程序 13.6 
中 的 数据 进行 生存 估计 ,要 求 分 析 病 期 与 手术 后 的 寿命 之 间 的 关系 ,并 做 组 间 寿 命 比较 。 

程序 19.5: 


TITE 手术 后 的 生存 估计 " 


DATA WA; 
LABELid- ' 个 案 号 ' 患者 g- ' 患 者 的 病 期 ' age= ' 患 者 的 年 龄 ' co ' 存 活 时 间 X t; 

Group= (N <7); /* N 为 内 部 隐 仿 变量。 第 1~ 6 个 个 案 为 第 1 组 ,其 余 为 第 2 组 * / 
INAT idgagetQ8 8; 

CARDS; 


01 2 68 234 02 1 54 200 03 1 69 380 04 1 50 350 
05 3 53 200 06 3 49 190 07 2 70 330 08 3 68 290 
09 3 68 134 10 3 54 170 11 1 66 310 12 1 46 270 


SIRATA group; 
TIME t; 
TEST age g; /* g 为 分 层 变 量 , 以 便 比 较 两 层 之 间 的 生存 分 布 的 一 致 性 * / 
RUN; 


程序 13.5 说 明 : 

Group 一 (CN_< 一 7): N 为 系统 内 部 默认 的 变量 。 第 1 一 6 个 个 案 为 第 1 组 ,其 余 为 
第 2 组 。 

TIME t; 将 原始 的 存活 时 间 t 赋予 变量 TIME, 因 变量 为 TIME, 

TEST age g: 指明 要 检验 的 协 变量 为 age 等 变量 。 

运行 程序 13. 5 产生 图 13. 8 所 示 的 结果 。 

结果 分 析 : 

(1) 图 13.8 中 的 Ca) 和 (b) 两 个 子 图 是 患者 分 为 两 组 时 的 寿命 率 及 四 分 位 数 寿命 率 
分 布 , 仅 供 参 考 。 

(2) 图 13. 8(c) 是 各 层 一 致 性 的 三 种 检验 法 ,由 于 三 种 检验 的 “Pr 二 Chi-Square” 值 分 
别 都 大 于 a 值 0.05, 说 明 两 组 患者 的 寿命 分 布 的 差别 为 0。 

(3) 图 13. 8(d) 是 因 变 量 与 协 变量 相关 性 (结合 度 ) 的 Wilcoxon 检验 ,主要 有 以 下 3 
种 检验 : 
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(ο) 各 层 间 一 致 性 的 3 种 检验 法 
13.8 分 组 的 病 期 与 寿命 关系 分 析 
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(d) 因 变 量 与 协 变量 相关 性 (结合 度 ) 检 验 
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(e) 对 数 秩 次 卡 方 检验 
13.8 ( 续 ) 


Univariate Chi-Squares for the Wilcoxon Test: 对 每 个 协 变量 ,进行 各 层 之 间 一 致 性 
的 对 数 秩 次 卡 方 检验 。 

Covariance Matrix for the Wilcoxon Statistics: 对 数 秩 次 的 协 方差 矩阵 。 

Forward Stepwise Sequence of Chi-Squares for the Wilcoxon Test; 逐步 人选 协 变量 
时 ,对 数 秩 次 的 卡 方 检验 。 从 图 形 看 .age 变量 的 “Pr 二 Chi-Square” 值 0. 0417 小 于 a ffi 
0. 05 ,说 明年 龄 与 手术 后 的 寿命 有 关 。 

(Ὁ 图 13. 8Ce) 是 因 变 量 与 协 变量 相关 性 (结合 度 ) 的 Log-Rank 检验 ,主要 有 以 下 几 
种 检验 : 

Univariate Chi-Squares for the Log-Rank Test: 对 每 个 协 变量 ,进行 各 层 之 间 一 致 
性 的 对 数 秩 次 卡 方 检 验 。 

Covariance Matrix for the Log-Rank Statistics: 对 数 秩 次 的 协 方差 矩阵 。 

Forward Stepwise Sequence of Chi-Squares for the Log-Rank Test: 逐步 人选 协 变 


量 时 ,对 数 秩 次 的 卡 方 检验 。 从 图 形 看 ,age 2E ER" Pr- Chi-Square"ffi 0. 0463 小 于 a ff 


0. 05 ,说明 年龄 与 手术 后 的 寿命 有 关 。 


例 10. 肺癌 数据 的 再 分 析 。 这 里 将 19. 2. 2 节 中 表 13. 1 的 肺癌 数据 ,采用 
LIFETEST 过 程 进 行 寿命 检验 ,要 求 产 生 寿 命 分 布 函 数 、 夯 出 寿命 曲线 ,并 检验 各 个 协 变 


量 与 因 变 量 的 关系 。 
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数据 见 13. 2. 2 节 中 的 例 6,LIFETEST 过 程 命令 见 下 面 5 个 语句 。 


PROC LIFETEST DATA- VALUNG2 — CUTTEST- OUT3 PIOT- (S,LS); 


TIME 七 CENSOR(1) ; 


ID therapy; 
STRATA cell; 
TEST oell kps diagtime age; 
合并 整理 后 新 的 程序 命令 见 程序 13. 6。 
程序 13. 6 : 
DATA valung2; 


LABEL T- ' 追 踪 时 间或 非 追 踪 时 间 ' kos ' 手 术 前 的 综合 素质 评分 ' 
diagtime- ' 从 诊断 到 手术 治疗 的 时 间 ' 


age- MER ' prior= "事先 是 否 有 治疗 ' ceni ' 细 胞 类 型 ， 


therapy- ' 疗 法 ' ; 


INPFUT therapy cell t kps diagtime age prior $ @@ ; 


CENSOR- (t« 0); 


t- ABS (t); 

CARDS; 

11 02 6 7 6n11 4 
1 1 12 6 Gyll 18 
1 1 082 40 10 69Υ11 110 
1 1 -100 70 06 70n11 02 
1 1 14 30 4 G8nl1 -25 
12 3 © 3 &n12 38 
12 58 8 4 By12 13 
Vw> -97 60 5 6?n4272 153 
x. 2 117 80 3 46n12 016 
I 2 22 60 4 68112 56 
i 2 18 20 15 42n12 139 
1 2 3 75 3 Snar 052 
b 2 18 30 4 6n12 Sl 
πι 5 27 60 8 &&n12 54 
πα es» 51. nun 448n12 392 
1 4 08 20 19 &y14 92 
1 4 117 80 02 38n14 132 
1 4 162 80 5 &n14 003 
π 3 17 50 16 6ου 1 3 162 
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ΘΑ η; η." 


4δι κας cd 


3.3 553 70 2 4n13 278 60 12 63n13 012 40 12 68 y 
1 3 260 80 5 45n13 20 80 12 4 ν 1 3 156 70 2 66n 
1 3 -18 90 2 n13 143 90 8 6n13 105 80 11 66n 
TY 3 103 80 5 3Hdy $3 250 70 8 53y13 100 60 13 37y 
2 1 99 90 12 5Ay21 112 $80 6 6n21 -87 80 3 48n 
2 1 -m 50 8 ΡΥΖΙ 242 50 1 7€n25 991 70 7 y 
2.1 111 70 3 en2z1i 01 20 21 6 y21 587 60 3 58n 
ο 389 90 2 € n21 033 30 06 64n21 25 20 36 €63n 
2. 1 3507 70 B 5Β8π21 467 90 2 6n21 200 80 28 52 y 
2 t 001 50 Jy 5521 30  α 6n21 044 60 13 70y 
gw 283 90 2 91 n21 15 50 13 40y23 049 30 03 37η 
2 2 25 30 2 6n22 -13 70 22 36y22 21 20 04 7n 
2. 2. B3 30 2 6n22 087 60 02 60n22 02 40 36 44 y 
2. 2 20 30 9 54y22 007 20 1 66n22 24 60 8 49n 
2 2 99 70 3 72n22 008 80 02 68n22 99 85 4 en 
2 2 61 70 2 715227 05 70 02 70n22 95 70 1 6n 
2. 2 80 50 17 "1n22 051 3087 59y22 29 40 8 6η 
2 4 24 40 02 60n24 018 40 05 69y24 -83 99 3 57n 
2 4 31 80 03 39n24 051 60 05 Gn24 90 6 22 50y 
2 4 52 60 03 43n24 0733 60 03 70n24 08 50 05 66n 
2 4 36 70 08 6n24 048 10 04 81n24 07 40 04 58n 
2 4 140 70 03 63n24 186 90 03 60n24 84 80 4 &n 
2 4 019 50 10 422n24 45 40 03 6€69n24 80 40 04 63n 
2' 3 02 60 04 45n23 164 70 15 68y23 19 30 04 39 y 
2. 3 053 60 12 66n23 015 30 05 63n23 43 60 11 49 y 
a 3 340 80 10 &y23 13 75 01 65n23 111 60 05 64η 
2-3 2300 70 18 67y23 38 80 04 65η 


PROC LIFETEST DATA= VALUNG2 OUTTEST- OUT3 PLOT- (S,LS); 
TIME 七 CENSOR(1) ; 


TEST cell kps; /* therapy diagtime age prior 等 变量 与 寿命 无 关 而 删除 * / 


运行 程序 13. 6 产生 图 13.9、 图 13. 10 所 示 的 结果 。 

对 图 13.9 的 结果 分 析 : 

如 图 13. 9(b) 所 示 : 

(1) Stratum 2: prior 一 y 

本 例 分 为 “手术 之 前 有 治疗 过 ?与 “没有 治疗 ”两 层 数据 :然后 进行 寿命 检验 。 
(2) Product-Limit Survival Estimates 

采用 极限 乘法 寿命 估计 。 其 中 : 

T 因 变 量 ”寿命 时 间 

Survival 寿命 概率 
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Failure 死亡 概率 

Survival Standard Error 寿命 标准 误差 
Number Failed 死亡 数 

Number Left 生存 数 

Therapy ”疗法 ,1 为 标准 疗法 ,2 为 试验 疗法 
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(b) 各 层 间 一 致 性 的 3 种 检验 法 
13.9 肺癌 数据 的 分 层 寿命 检验 
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(c) 与 因 变量 有 关 的 协 变量 
图 13.9 (46) 


(3) Summary of the Number of Censored and Uncensored Values 

各 层 追 踪 人 数 占 层 内 人 数 的 比例 。 如 图 19. 9(b) 所 示 , 第 二 层 ( 预 先 有 治疗 ) 有 
7. 5094 ,第 一 层 (预先 没有 治疗 ) 有 6.19%. 

(4) Testing Homogeneity of Survival Curves for T over Strata 

各 层 寿命 函数 一 致 性 的 检验 。 主 要 结果 包括 以 下 (5) 一 (7) 项 。 

(5) Covariance Matrix for the Log-Rank Statistics 

对 数 秩 次 的 协 方差 矩阵 。 

(6) Covariance Matrix for the Wilcoxon Statistics 

基于 Wilcoxon 的 协 方差 矩阵 。 

(7) Test of Equality over Strata 

各 层 寿 命 函数 一 致 性 的 检验 。 由 “Pr> Chi-Square” 一 栏 的 3 个 值 看 出 ,它们 分 别 大 
于 a 值 0.05, 所 以 不 能 拒绝 “各 层 寿 命 一 致 性 ”的 假设 。 

(8) Rank Tests for the Association of T with Covariates Pooled over Strata 

每 层 中 , 协 变量 与 因 变 量 ( 寿 命 ) 相 关 性 的 秩 次 检验 ,主要 统计 量 是 : 

Univariate Chi-Squares for the Wilcoxon Test; 单 变量 Wilcoxon 卡 方 检验 。 只 有 
kps 变量 的 “Pr> Chi-Square” 值 显著 (二 . 0001) .表明 与 寿命 时 间 有 关 。 

(9) Forward Stepwise Sequence of Chi-Squares for the Wilcoxon Test 

逐步 和 人选 变量 时 的 Wilcoxon 卡 方 检 验 。 从 *Pr> Chi-Square” 值 (一 . 0001) 看 ,也 只 
有 kps 变量 与 寿命 时 间 有 关 。 

Univariate Chi-Squares for the Log-Rank Test: 单 变量 Log-Rank( 对 数 秩 次 ) 卡 方 
检验 。Cell 变量 和 kps 变量 的 “Pr 二 > Chi-Square” 值 都 很 显著 (小 于 α 值 0.05) .表明 这 两 
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个 变量 与 寿命 时 间 都 有 关 。 
说 明 : 相 比 之 下 ,(9) 项 比 (8) 项 宽容 。 
(10) Forward Stepwise Sequence of Chi-Squares for the Log-Rank Test 
逐步 入 选 变量 时 的 对 数 秩 次 (Log-Rank) 检 验 。Cell 变量 和 kps 变量 的 “Pr 二 Chi- 
Square” 值 都 很 显著 (小 于 a 值 0.05) .表明 这 两 个 变量 与 寿命 时 间 都 有 关 。 
比较 (8) 一 (10) 项 可 以 看 出 ,Log-Rank( 对 数 秩 次 ) 寿 命 检 验 , 总 是 比 Wilcoxon 寿命 
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ORTHA AIEE a 204) f A C 
13.10 ”分 两 层 的 寿命 分 布 函数 


对 图 13. 10 的 结果 分 析 : 

图 13. 10(a) 是 寿命 分 布 曲线 。 从 图 13. 10(a) 看 .手术 前 预先 做 过 辅助 治疗 一 组 的 肺 
癌 患 者 (prior 二 yes) ,其 寿命 分 布 曲线 比较 平坦 , 待 存 活 400 天 后 基本 上 呈现 平稳 状态 ， 
且 寿 命 时 间 长 达 900 多 天 。 但 手术 前 未 做 辅助 治疗 一 组 的 肺癌 患者 (prior 一 no) ,其 寿命 
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分 布 曲 线 比 较 陡 峭 , 到 存活 400 天 后 虽然 也 趋 于 平稳 ,但 寿命 时 间 最 长 只 有 500 多 天 。 

图 13. 10(b) 是 自然 对 数 的 寿命 分 布 曲线 。 从 图 13. 10(b) 看 ,手术 前 预先 做 过 辅助 
治疗 一 组 的 肺癌 患者 (prior 一 yes) ,其 寿命 分 布 曲 线 比 较 平 坦 , 且 寿命 时 间 长 达 900 多 
天 。 但 手术 前 未 做 辅助 治疗 一 组 的 肺癌 患者 (prior 一 no) ,其 寿命 分 布 曲线 比较 陡峭 而 短 
促 , 寿 命 时 间 最 长 只 有 500 多 天 。 


Jz E 13 
1. 下 面 程序 13.7 是 对 程序 13. 2( 肺 癌 数 据 ) 的 另 一 种 解法 。 
程序 19.7: 
DATA valung27 
ΓΕΟΡ I N; 


JNEUT therapy $ cell$ n8 ; 
Cellth= therapy ||cell; 
LABEL T= "18 Eg EH] [ΗΙ e, AE 3E Ec EE I] " kps= ' 手 术 前 的 综合 素质 评分 " 
diagtime- '" 从 诊断 到 手术 治疗 的 时 间 ' 
age- ' 年 龄 ' prior= ' 事 先是 否 有 治疗 ' cell= ' 细 胞 类 型 ' 
therapy- Uf ik '; 
DOI-17ON; 
INPUT t kps diagtime age prior 5 @@ ; 
CENSOR= (ες 0); 


t- ABS (t); 

OUTPUT; 

END; 

CARDS; 

STANDARD SQUAMOUS 15 

072 60 7 69 n 411 70 05 64 y 228 © 3 38 n 
126 60 9 63 y 118 70 M 65 y 10 20 5 49 n 
082 40 10 69 y 110 80 29 68 n 34 50 18 43 n 
-100 70 06 Ὁ n 042 60 04 81 n 008 40 58 63 y 
144 30 04 63 n -25 80 9 52 y 1 70 M 48 y 
STANDARD SMALL, 30 

030 60 3 & n 384 © Ὁ 42 n 04 40 0 35 n 
54 80 4 63 y 13 6 4 56 n -123 40 03 55 n 
-9 60 5 6 n 153 60 14 63 y 59 30 2 65 n 
117 80 3 46 n 0ἱ6 30 04 53 y 151 50 12 69 n 
22 60 4 6&B n 56 80 12 43 y 21 40 2 55 y 
18 20 15 42 n 139 80 02 68 n 20 30 5 65 n 
31 75 3 65 n 052 70 02 55 n 287 60 25 66 y 
18 30 4 © n 5 © 1 6 n 12 80 28 53 n 
27 60 8 € n 54 70 1 6 n 00 50 7 7 n 
63 50 11 48 n 39 40 04 68 n 10 40 23 6; y 
STANDARD ADENO 9 
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08 20 19 & y 92 70 10 60 n 35 40 6 62 η 
117 80 02 38 n 132 80 5 50n 12 504 65 y 
162 80 5 64 n 003 30 03 43 n 95 804 34 n 
STANDARD LARGE 15 
17 50 16 66 y 12 80 5 Εὖ n 216 50 15 52 η 
553 70 2 4 n 28 60 12 63 n OI2 40 12 68 y 
260 80 5 45 n 20080 12 41 y 156 70 2 66 n 
-182 90 2 & n 1433 90 8 60 η 105 80 1 66 n 
103 80 5 38 η 250 Ὁ 853 y 10 6 B 3 y 
TEST SQUAMDUS 20 
99 90 1254 y 112 80 6 6 n -87 80 3 48 n 
-231 50 8 52 y 22 50 1 Ὁ η 991 70 7 50 y 
111 70 3 6 n 00 2021. 6 y 57 6 3 58 n 
388 90 2 62 n 03 30 06 64 n 25 20 36 63 n 
357 70 13 58 n 46 90 2 64 n 201 80 28 52 y 
001 50 7 35 n 30 7011 63 n 44 60 13 70 y 
283 90 2 5 n 15 50 B 40 y 
TEST SMALL 18 
2530 2 69 n -103 70 22 36 y 21 20 04 7 n 
1330 2 62 n 087 60 02 60 n O2 40 36 44 y 
2030 9 54 y 007 20 11 66 n 24 60 8 49 n 
99 70 3 72 n 008 80 02 68 n 99 85 4 G n 
€ 70 2 "1n 025 70 02 Ὁ n 95 70 1 & n 
8050 17 Τι n 051 30 87 59 y 29 40 8 6 n 
TEST ADENO 18 
24 40 02 60 n Ol8 4005 69 y -83 99 3 57 n 
31 80 03 39 n 051 60 05 G n 90 60 22 50 y 
52 60 03 43 n 03 60 03 70 n 08 50 05 66 n 
36 70 08 6l n 048 10 04 81 n 07 40 04 58 n 
140 70 03 63 n 186 90 03 60 n 84 80 4 & n 
019 50 10 42 n 45 40 03 69 n 80 40 04 63 n 
TEST LARGE 12 
052 60 04 45 n 164 70 15 68 y 19 30 00 39 y 
053 60 12 66 n Ol5 3) 05 63 η 43 60 11 49 y 
340 80 10 & y 133 75 Οἱ 66 n 11 60 05 64 η 
231 70 18 67 y 378 80 04 65 n 049 30 03 37 n 


PROC FORMAT; 
VALUE ELLf 1- fA 4A ' 2-11" S'KE) a— ΑΛ. 
FORMAT CELL CELLf.; 
PROC LIFEREG; 
CLASS therapy cell prior cellth; 
MODEL t* CENSOR(1)- therapy cell prior kps age diagtime cellth/D- WEIBULL; 
OUTPUT OUT- COUT2 P= PRED; 
PROC PRINT; 
RUN; 
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运行 程序 13.7 产生 图 13. 11 所 示 的 结果 。 


TSAS - [输出 - 《无 标题 ) ] 
文件 (F) WHE) EEV) 工具 (T) ΒΟΤΣΙίΞ) 窗口 (W) 3ΑΒ(Η) 
-[ a e ο Πα πε) 


Tode] Inforasticn 


Data Set NORK. VALIING2 
Dependent Variable 
Gensortne yartabis 
Gensoring Value(s 


iret lad idR petia 


Nunber of Observations 
ο Velues 
Xight Censored Values 
Left Censered Values 
Interval Censors Valuec 
Nane of Distribution 
Log Likelihood 


Weibull 
is. 6257983 


Class Level Information 


Class Level Information 


[E 


STANDARD TEST. 
ACERO LARGE SI 


ALL SOUATOYS 


ny 
STÁIDARDADENO STANDARDLARCE STANDARDSTALL STANDARDSQUINOUS TEST E 


ADENO TAST — LARCE TEST — SYALL TEST 


SAS - [输出 - 《无 标题 ) ] 
A 文件 (E) 编辑 (E) 查看 (V) ILAT) FEES) EOW) HDH) 
-[  —bjDwEiéi|:S5/m8&g*oe 


Chi 
Square Pr > Chisa 


dence 
DR Estime 5 


ΒΤΑΠΡΑΕΡΑΓΕΠΟ. 
STANDARDLARGE 


pon 
Weibull Shape 


1 
N 
1 


ο: 0201 
0.0773 


TSAS - [输出 - (无 标题 ] 
E ΦΥΕ) WAE) EAV) TAT) RAEE) KOW) AH) 
~ σσ πω 9 αἱ aA νά] 


Type III Analyst ecte 


Esteer 


mier 
ips 


ags 
fagtine 
ΕΠ 


Farameter 


Tatercect 


(9) Weibull 模 型 参数 估计 
肺癌 患者 寿命 分 析 


13.11 
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试 对 产生 的 结果 进行 比较 。 
2. 表 13.2 中 的 数据 是 某 医院 糖尿 病 患 者 的 随访 情况 。 
表 13.2 某 医 院 糠 尿 病 患 者 随访 情况 


发 病 年 数 存活 人 数 死亡 人 数 病 号 
15 146 2 1 
16 144 4 2 
17 140 8 3 
18 136 10 4 
19 130 12 5 
20 121 15 6 
21 115 20 7 
22 101 24 8 
23 91 30 9 
24 80 46 10 
试 做 寿命 估计 并 计算 寿命 曲线 。 
根据 表 13. 2 中 的 数据 及 题 意 , 编 出 过 程 命令 见 程 序 13. 8。 
程序 13. 8: 
DATA T7 
LABEL year- ' 发 病 年 数 ' νι ' 存 活 人 数 ' νο ETC ACC; 
DO year- 14.5 TO 23.5; /* 时 间 范 围 为 15 年 ~24 年 , 取 中 点 值 则 为 14.5 TO 23.5, 步 长 默 
认为 1 年 * / 
INEUT vl v20 @ ; /* 依次 读 取 存活 人 数 V1 和 死亡 人 数 v2* / 
Censor= 1;count= vl; /* 将 存活 人 数 赋 对 νι Eft ,并 用 censor= 1 记 为 
追踪 值 * / 
OUTPUT; /* 输出 结果 x / 
Censor= 2;count- v2; /* 将 死亡 人 数 赋 予 v2 Æ fit ,并 用 censor= 2 记 为 
非 追 踪 值 * / 
OUTEUT; /[* 输出 结果 * / 
ΡΕΟΡ vl v2; 
END; 
CARDS; 


146 2 144 4 140 8 136 10 130 12 
121 15 115 20 101 24 91 30 80 46 
PROC LIFETEST PIOTS- (S,H) 

INTERVAL- (15 TO 24) METHOD- LT; /* 指定 区 间 范 围 和 寿命 表 * / 


TIME year * censor(1); /* 指明 censor HAEE, censor 为 指示 变量 
?4 censor=1 时 为 追踪 值 * / 
FRED count; /* 对 count 变 量 进行 频数 统计 * / 


RUN; 
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运行 程序 13. 8 产生 图 13. 12 所 示 的 结果 。 


请 分 析 寿 命 表 。 


TSAS - [输出 - (无 标题 》 
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135 
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时 
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The LIFETEST Pzsceise 


1.000 
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Dr] 
B 
0.9757 
0.9504 
pr 
p 
B^ 
ο ποσά 


Evaluated at -he Mispoint cf tha 


FF 
Standard 
E Γη 


0.000102 
Do] 

ο. 00105 
9.011555 
0.016807 
ο αρ 
πο 
5.ΟἼΤΈΑΑ 
5. 10-858 
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图 13. 12 寿命 表 


Hazard 
Standard 
Eno 


0.000072 
0.091785 


pers] 
DEC 
0.020273 
ΓΕΘ 


Ves 


Lifetime 
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非 线性 回归 分 析 一 : 对 数 与 多 项 式 回归 


在 计算 机 SAS 中 , 非 线 性 回归 过 程 称 为 PROC NLIN。 其 中 的 NLIN 全 称 为 Non 
Linear Regression。 非 线性 回归 是 通过 复杂 的 迭代 法 获得 的 回归 模型 。 

NLIN 过 程 的 迭代 法 有 以 下 5 种 。 

(1) Gauss 法 : 高 斯 法 。 又 称 改 良 的 高 斯 一 牛顿 法 (Modified Gauss-Newton 
method) 。 

(2) Dud 法 : 错位 法 (False Position) HI Z JC IE $13: (Multivariate Secant)。 

(3) Gradient iX; 梯度 法 (Gradient method), 又 称 急剧 下 降 法 (Steepest Descent 
method) 。 

(4) Newton 法 : 牛顿 法 (Newton method) 。 

(5) Marquardt 法 。 

本 章 介绍 的 曲线 回归 包括 对 数 回 归 和 多 项 式 回 归 。 
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对 数 曲 线 回 归 必 须 满足 关系 式 :Y 一 < 十 2Xlog(CX)。 
1411 对 数 曲 线 回归 所 要 求 的 数据 


下 面 对 “ 产 量 与 劳动 力 ( 变 量 L) .产量 与 资金 (变量 K)” 的 数据 进行 非 线 性 回归 。 
(1) 非 线 性 回归 的 数据 及 程序 见 程序 14. 1。 
程序 14. 1: 产量 与 劳动 力 (L) 、 产 量 与 资金 (K) 的 数据 与 程序 。 


Title  " 非 线性 回归 (NonLinear Regression) '; 


DATA zj; 

INEUT k L I0GQ; 

CARDS; 

228 -802 =L 
258 249 — 1.695 
767 „501 — «649 
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487 .425 = .270 
678 .452 -.43 
784 -817 031 
sT .845 3 
695 .958 - .125 
458 -084 -2.218 
981 -021 — 3.633 
002 -295 -5.586 
429 -277 —- 0.773 
231 546 - 1.315 
644 129 - 1.678 
631 -017 -3.879 
059 .906 一 2.301 
811 .223 -1.377 
758 «145 -2.27 
050 161 一 2.539 
«823 «006 -5.15 
483 .836 - 324 
682 «521. - 253 
116 «930 -1.53 
440 .495 一 .614 
456 .185 -1.151 
342 .092 - 2.089 
358 .485 =. 
162 .934 -1.275 


PROC NLIN BEST= 100 METHOD- DUD; 
MODEL IOGQ= BO- C* IOG(D* (Lx * r)* (1- D) * (Kx * r)); 
PARMS B0O-1C--1D- .5R--1; 
RUN; 
(20 从 程序 14. 1 中 的 数据 发 掘 非 线性 回归 模型 如 下 : 
LOGQ = Bo + C X log(D X (L) + A — D) X CK')) (14.1) 
(3) 参数 说 明 : 
Bo: RE. D: 分 布 参数 。 
C; 斜率 , 即 效率 参数 。 r: 替代 参数 。 
(4) 对 本 例 的 产量 与 劳动 力 ( 变 量 1) 产量 与 资金 (变量 K) 的 对 数 回归 分 析 见 以 下 各 节 。 


1412 对 数 曲 线 回归 的 编程 解法 


操作 步骤 如 下 : 
CD 将 程序 14. 1 中 的 语句 与 数据 调 入 SAS 的 程序 编辑 器 (Editor Program) f HO 。 
(2) 选择 “运行 ”~ 提交 ”命令 ,SAS 输出 图 14. 1 一 图 14. 5 所 示 的 结果 。 
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下 面 对 图 14. 1 一 图 14.5 所 示 的 结果 进行 分 析 。 


非 线 性 回归 (NonLinear Regression) 
09 :05 Saturday. June 15. 2002 


The NLIN Procedure 
Dependent Variable LOGq 
Grid Search 
Sum of 
Bo ς D r Squares 
1.0000 —1.0000 0.5000 — 1.0000 36.7867 


图 14.1 因 变 量 与 模型 的 系数 


非 线性 回归 (NonLinear Regression) 
The NLIN Procedure 
Dependent Variable LOGq 
DUD Initialization 

Sum of 
DUD Bo c D r Squares 
—5 .0000  — 1.0000 .5000 一 1.0000 36.7867 
.1000 —1. 0000 5000 — 1.0000 43.3528 
.0000 —1. 1000 5000 —1.0000 27.4043 
.0000 —1. 0000 .5500 —1.0000 36.2204 
.0000 —1. 0000 .5000 —1.1000 26.3184 


—4 
—3 
—2 
=g 


Εν ο ia a a 
66556565 


14.2 虚 点 系数 的 初始 值 


图 14.1 和 图 14. 2 显示 出 模型 的 初始 参数 值 。 

从 图 14. 3 的 统计 量 看 : 迭代 回归 了 13 步 , 因 为 最 小 平方 和 已 经 不 能 达到 收敛 标准 ， 
不 能 再 下 降 了 ,因此 和 迭代 终止 。 

对 图 14. 4(b) 中 统计 量 的 解释 如 下 。 

(1) 方差 分 析 ( 以 图 14. 4Cb) 为 准 ) 

Model Sum of Squares (Regression SS) : 是 已 被 解释 的 回归 平方 和 (SAS 9e 输出 的 
dé 56.5597), 

Error Sum of Squares( 或 显示 Residual Sum of Squares): 残 差 平 方 和 。 

Residual Sum of Squares (E Residual SS); 未 被 解释 的 残 差 平方 和 (其 值 为 1. 6492)。 

Uncorrected Total Sum of Squares: 因 变 量 的 总 平方 和 (此 项 见 图 14. 4(Ca) ,其 值 为 
1381. 795 
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国文 件 旭 «πὶ SEV IR 解 总 方案 人 ) WOW HUW -x| 


JE ΞΙ]![1 νι Ὁ Δ! ; ae 
FREE. Nonlinear Regression) 14:15 Monday, Januar: 
The NLIN Procedure 
Dependent Yariable LOGO 
Method: Gauss-Nevton 
Iterative Phase 

Sum of 

Iter Bo 5 D r Saares 

D 36.7987 

1 27.9946 
2 
E 
4 
5 
6 
7 
8 
8 
n 
11 
n 
13 


πι τς πε 程 ..，|| 国 答 出 ~ (无 标题 ) 


图 14.3 各 个 和 迭代 阶段 的 系数 值 


OBES- 【无 标题 ) 


Corrected Total Sum of Squares; 偏离 均值 的 平方 和 (其 值 为 58. 2089). 

R squared 二 1 一 Residual SS/Corrected SS; 确定 系数 ,或 称 判 定 系 数 为 0.97。 此 值 
表示 被 模型 解释 的 方差 占 总 方差 的 97%( 图 14.4(b) 中 不 显示 此 项 )。 

本 例 中 R squared—0. 97 接近 于 1 ,说 明 模 型 很 好 地 拟 合 了 数据 。 

(2) 置信 区 间 分 析 


Estimation Summary 

Method DUD 

Iterations 37 

Object 1. 502E-9 

Objective 1.649215 

Observations Read 29 

Observations Used 29 

Observations Missing ο 

Sum of Mean Approx 
Source DF Squares square F Value Pr OE 
Regression 4 130.1 32.5196 285.79 «.0001 
Residual 25 1.6492 0.0660 
Uncorrected Total 29 131.7 
Corrected Total 28 58.2089 
Approx 

Parameter Estimate Std Error Approximate 95% Confidence Limits 
B0 0.0935 0.0792 -0.0692 0.2570 
c -0.3739 0.2815 -0.9535 0.2058 
D 0.6580 0.1220 0.4068 0.9093 
r -2.6999 1.9272 -6.6691 1.2692 


(a) SAS 9 ARIKA p^ ^t 9 [n 


归 输 出 


14.4 回归 平方 和 
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Y sas- [输出 - (无 标题 ) 1 


NOTE: Convergence criterion net. 


Est inat ion Summary 
Method. Bauss-Newton 
Iteretions 13 
Subiterations 


4 
Average Subiteralions 0.207692 
24E-8 


lübservstions Missing 


Sun cf 


Αρρτοκ. 
DF Scuares Sauan F walue Pr >F 


3 58.5597 9531 285.78. <.0001 
28 1.8482 0-0660 
28 58.2089 


Approx 
Parometer Est imate Std Error Approximate 95% Conf idence Limite | 


.0732 -0.0682 0.2570 
.2815 -0.9536 0.2058 
M! . 0.3683 
1.9273 -6. 1.2693 


ΕΙ 


ΕἸ 日 志 - 无 标题 ) 国 程序 编辑 器 - Βρε... ΕΙ - 无 标题 


CJC:MDocuments | 


(0) SAS 9 版 本 产生 的 回归 输出 
图 14.4 ( 续 ) 


从 图 14. 4(b) 底 部 的 统计 量 看 

Parameter: 参数 ;有 Bo CD、 四 个 参数 ; 

Estimate: 参数 的 估计 值 ,如 Bo 参数 的 估计 值 为 0.0939。C 参数 的 估计 值 为 
一 0. 3739 等 。 

Approx Std Error: 允 近 的 标准 误差 .如 Bo 的 标准 误差 为 0.0792。C 的 标准 误差 为 
0. 2815 等 。 

Approximate 95 % Confidence Interval; 近似 的 95% 置 信 区 间 。 

左 栏 (Lower): 95%% 置 信 区 间 的 下 限 。 

右 栏 (Upper) : 95 6 rfe EXTR] BS E BR . 

注意 : 95% 管 信 区 间 的 上 下 限 不 经 过 坐标 原点 则 可 拒绝 系数 为 0 的 原 假 设 。 

从 图 14. 5 到 近 的 相关 矩阵 看 来 ,参数 Bo 与 C 的 相关 系数 约 为 0. 2702264, 不 大 。 
B, 5j D 的 相关 系数 约 为 0.1538422., 也 不 大 。B。 5 r 的 相关 系数 约 为 一 0.3037786 也 不 
大 。 只 是 参数 C 与 D.C 与 +.D 与 7 的 相关 系数 的 绝对 值 太 大 (0.7 左右 )。 

如 果 参 数 之 间 的 相关 系数 具有 很 大 的 “ 正 相 关 ” 或 很 小 的 “ 负 相 关 ”( 如 10.6| 左 右 )， 
则 该 模型 很 可 能 “ 超 参 数 ”*( Over Parameterized) 。 超 参数 暗示 着 一 个 模型 有 若干 参数 不 
拟 合 数据 。 

但 出 现 超 参数 时 不 一 定 意味 着 模型 完全 不 拟 合 数据 ,因为 本 例 的 数据 量 太 小 ,可 能 
导致 不 足以 估计 全 部 参数 。 
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Yo sas — [输出 - “无 标题 ) 
ΗΒ) SEV IAW 解决 方案 G) GOW 帮助 - 5 


Approximate Correlation Matrix 
Bü 5 D 


1: EN rs Hie D. Jost 


Bí 
C 
D 
r 


-0:3037788 1-590604 ER 
z ———M———M———II 


[E C: Docunent | 


图 14.5 逼近 的 相关 和 矩阵 


后 ,根据 图 14.4 可 ”挖掘 出 ?产量 的 预测 公式 如 下 : 
LOGQ =B, --C X Ln(D X L' --(1— D) X κ’) 
一 0. 0939 — 0. 3739 X Ln(0 . 658 X [29999 + 0. 342 X K *:999? ) 
其 中 , 残 差 平方 和 为 1. 6492( 很 小 ,合格 ) 。 
说 明 : 同样 是 这 些 数据 ,但 用 SPSS 10. 1 进行 非 线 性 回归 时 ,获得 产量 的 预测 公式 如 下 。 
LOGQ —B, --C X La(D X L' 4- (1— D) X K') 
一 0. 1229 + (— 0. 3398) X Ln(0. 6617 x 15758 + 0. 3383 x K^*95) 

由 此 表明 ,各 种 统计 软件 之 间 也 有 一 些 误差 ,但 结果 类 同 。 
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在 社会 调查 市场 分 析 和 医学 研究 中 :多项式 回归 分 析 ( 拟 合 抛物 线 ) 应 用 得 也 很 广泛 。 
1431 多 项 式 回 归 分 析 的 原始 数据 


下 面 图 14. 6 中 的 数据 是 某 最 高 学 府 5 届 年 龄 范围 在 18 一 22 岁 的 男女 生 的 平均 体 
重 , 要 求 建 立 男生 生长 发 育 的 曲线 ( 见 14. 3.2 节 )。 


Report 
学 生体 重 
AGE | Mean N 2 
Deviation 
18 104. 43 7 10.42 
19 111.16 37 17.82 
20 115. 24 144 17. 70 
21 119. 41 109 20.58 
22 124. 32 38 17.18 
Total 116. 95 335 18. 88 


14.6 18—22 岁 男女 生 各 个 年 龄 组 的 平均 体重 
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1432 多 项 式 回归 的 方程 式 


根据 图 14. 6 的 数据 , 拟 建 如 下 的 多 项 式 回 归 方 程式 : 
Y = By--BiX 4- B, X* (14. 2) 


1433 多 项 式 回 归 的 SAS TE FF 


根据 图 14. 6 中 的 数据 及 其 公式 (14. 2) ,建立 的 SAS 命令 文件 见 程序 14. 2 。 
程序 14. 2: 拟 合 18 一 22 岁 大 学 生 各 个 年 龄 组 平均 体重 的 回归 程序 。 


DATA WEIGHT; 

TITLE " 拟 合 18~ 22 岁 大 学 生 各 个 年 龄 组 平均 体重 的 多 项 式 回 归 '; 
ΤΝΡΟΤ age weight 868 ; 

CARDS; 


18 104.43 19 111.16 20 115.24 21 119.41 22 124.32 
; 
PROC NLIN BEST- 100 METHOD- MARQUARDT; 
PARMS BO 110 TO 140 
Bl- 15T- 5 
E2 0 TO 4; 
MODEL weight- BO+ Bl * aget ΒΟ * age* age; 


运行 程序 14. 2 生成 图 14. 7 一 图 14. 10 及 图 14. 12 所 示 的 结果 。 
144 用 项 让 回归 的 结果 与 分 析 


1441 多 项 式 回归 的 输出 结果 
图 14.7 至 图 14. 10 及 图 14. 12 是 由 程序 14. 2 产生 的 输出 结果 。 


r s 标题 OC WLIN n 
BAXO SED 查看 WD IARA 解决 方案 G) SOW 
帮助 00 -Sx 
Jv J| ΓΙ 8 ὰ! 
学 T D 
14:15 Monday, 图 
The NLIN Procedure 
Dependent Variable weight = 
Grid Search 
Sum of 
Bo BI B Squares 
140.0 -5.0000 0 29022. 
139.0 -5.0000 0 — 29776.8 
138.0 -5.0000 0 30540.4 
137.0 -5.0000 0 319146 
186.0 -5.0000 0 — 32098.6 
135.0 -5.0000 0 — 32092.7 
184.0 -5.0000 0 — 8696.8 
133.0 -5.0000 0 — 3451.0 
132.0 -5.0000 0 — 35335.1 
131.0 -5.0000 0 361639.2 
180.0 -5.0000 0 — 37013.8 
129.0 -5.0000 0 37867.5 
128.0 -5.0000 0 887416 
127.0 -5.0000 0 39805.7 图 | 
ΕΗ ζω ου. imi 


14.7 检测 回归 系数 的 初始 值 
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Y sas — [输出 - (无 标题 ) PROC LIN 正在 运行 ] [OR 
国 πίεα) 编辑 EE) SEV IAV 解决 方案 EG) SOW 帮助 - 


Sx 


jnsweu|:a 


14:15 "m 


The NLIN Procedure 
Dependent Variable weight 
Method: Marquardt 


Iterative Phase 
Sum of 
Iter Bo B1 B2 Squares 


0 140.0 -5.0000 0 29022.1 ΓΙ 
1 -82.0694 14.8459 -0.2536 1.2116 


NOTE: Convergence criterion met. 


Estimation Summary 


Method Marquardt 
iun ions 1 


PPC 1. 

RPC(B2) 253571.4 
Object 0.999958 
Object ive 1.211611 
Observat ions Read 5 
Observat ions Used 5 
Observat ions Missing 0 


Ka i) m 
图 14.8 和 迭代 次 数 为 工 次 


Y sas — [E (无 标题 ) PROC NLIN 正在 运行 ] 


Dbservat ions Used 
Übservations Missing 


Sum of Mean Approx 
Source DF Squares Square F Value ΡΓΣΕ 


Model 1 115.8 181.14 0.0052 
Error αἱ 0.6058 
Corrected Total .8 


|C: \Documents d 


14.9 被 解释 的 方差 


从 图 14.9 看 : 由 回归 解释 的 平方 和 是 231. 6. 3E 22 3-75 RI COR BIER B9 E 75 ID A 

1.2116。 所 以 ,回归 判定 系数 为 : 
R? =1— (Residual SS)/(Corrected Total SS) 
=1— 1. 2116+232. 8220. 99( 接 近 于 1) 

说 明 二 次 项 回归 曲线 拟 合 度 极 好 。 

从 图 14. 10 Æ: Bo — B2 fi 95 96 Bi fei EX [8] 19] 388 3 6 p Jt ex . Er LA BO 一 B2 系数 均 
不 合格 ,应 另 选 模型 。 但 是 为 了 继续 向 下 讲授 回归 模型 .假设 BO 一 B2 系数 是 有 意 
义 的 。 

由 图 14.10 和 图 14. 11 看 出 ,多 项 式 回 归 系 数 B0、Bl、B2 值 ,无 论 用 SAS 或 是 用 
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更 sas — [输出 - “无 标题 ) PROC NLIN 正在 运行 ] 
国 文件 @) REO SEV IAV 解决 方案 GE) HOW WHW 


^ 
Approx E 
Parameter Estimate Std Error Approximate 95% Conf idence Limits 
B0 -82.0694 82.9384 -438.9 274.8 
BI 14.9459 8.3244 -20.8715 50.7632 
B2 -0.2536 0.2080 -1.1486 0.6415 ν 
«i à | + 


Æ 14.10 由 SAS 计算 出 的 B0、B1、B2 参数 的 估计 值 


SPSS 系统 中 的 曲线 回归 ,所 得 的 值 相同 。 


Independent: age 

Dependent Mth  Rsq d.f. F Sigf Bo Bl B2 
WEIGHT LIN .991 3 327.71 .000 18.8520 4.8030 
WEIGHT QUA .995 2 191.14 .005 一 82.069 14.9459 . 2536 
WEIGHT CUB .995 2 191.14 .005 一 82.069 14.9459 -.2536 


Notes: 
9 Tolerance limits reached; some dependent variables were not entered. 


图 14.11. Hi SPSS 计算 出 的 B0、B1、B2 参数 的 估计 值 
表明 程序 14. 2 中 的 数据 可 以 选择 METHOD— MARQUARDT 法 。 


sas - [输出 - (无 标题 ) PRoC LIN ... [DOR 
ArtD RO EV IAV 解决 方案 G) WOO 


Approximate Correlation Matrix 
B0 BI 


1.0000000 -0.3335467 0.3382282 
-0.9995467 1.0000000 -0.9995628 
0.3382282 -0.9995628 1.0000000 


EE 图 


n 日 志 -. Bst... Agr.. 


14.12 ”逼近 的 B0、B1、B2 相关 和 矩阵 


从 图 14. 12 通 近 的 相关 矩阵 看 来 ,参数 B0 与 B1,B0 与 B2,Bl 与 B2 三 对 系数 的 相 


关系 数 约 为 10.99| 以 上 ,非常 大 。 


说 明 : 参数 之 间 的 相关 系数 的 绝对 值 0. 99 太 大 :该 模型 很 可 能 是 “ 超 参 数 ”( Over 
Parameterized) ,原因 是 本 例 的 观察 值 只 有 9 个 以 致 不 足以 估计 全 部 参数 。 但 是 回归 分 


析 的 方法 具有 普遍 意义 。 
1442 改 用 “分 析 家 ”对 话 框 法 进行 多 项 式 回归 
下 面 拟 用 “分 析 家 ”对 话 框 法 .替代 14. 3. 3 节 编程 法 并 进行 多 项 式 回归 。 
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(1) 运行 程序 14. 2 中 的 命令 与 数据 ,产生 SAS 数据 集 Work. weight. 


(2) 选择 图 14. 13 中 SAS 主 菜单 的 “解决 方案 ”一 “分 析 ” 命 令 , 鼠标 指 


图 14. 13 带 有 阴影 标记 的 “分 析 家 ”命令 上 。 


T SAS — [程序 25- 2- SAS . 


ETT 


PROC HLIN 正在 运行 ] 
REO EV IAV FTW EZ 


Sow 帮助 oD 


开发 和 编程 @) 


30 可 视 分 析 QW) 


EDATA WEIGHT2; . 
TITLE 合 18 一 22 岁 大 学 生 各 个 # BED d STD 
INPUT age weight88; Μπα) υνν EE) 
CARDS; ASSIST (I) ΠΩ 
18 104.43 19 111.16 20 115.24 2 Er 向 导 式 数 据 分 析 (ο) 
- |  EIS/OLAP 应 用 程序 生成 器 Œ) 交互 式 数据 分 析 T) 

日 PROC NLIN BEST=100 METHOD-MARQUERDTI— | 投资 分 折 aD 
PARMS BO 110 TO 140 市 场 研究 QD 

drum παπα 
MODEL weight=B0+B1*age+B2*agetage; nawe w 
排队 模拟 0) 

a ü j BHI β-7ΠΙΉΝΙ 45 (E) 


ÉlHz - (无 标题 ) 国 程序 编辑 器 - τε... | 国 输 出 - (ΠΒ... ΙΙ 


时 间 序 列 查 看 器 CD) 


针 移 到 


(9) 选择 “分 析 家 ”一 


启动 “分 析 家 ”应 用 程序 


[C:\Documents and S«[Ln 1, Col 14 


图 14.13 分析 家 的 菜单 位 置 


“文件 ”> 


ΠΕ SAS 名 称 打开 ”命令 


,进入 图 14. 14 


查找 “逻辑 库 ? 中 的 Work. weight 数据 集 。 


(4) 1 


πίεα) FEV IAV 解决 方案 GE) 


Analyst: (new project) 


Wr 选择 成 员 


Maps 
Rposmgr 
(S Sashelp 
Sasuser 
Work 


成 员 名 W: Weight 


Sow ΜΟῚ 


目 日 ... | 国 程 .. [Emse... | 图 程 ... |[S93&... 


14. 14 Work. weight 工作 文件 


á 


后 用 "下 箭头 ” 


选择 文件 名 Weight 后 单 击 “ 确 定 ”COK ) 按 钮 .显示 图 14. 15 所 示 的 Work. 
weight 数据 集 数据 。 


29 章 ” 非 线 性 回归 分 析 一 : 对 数 与 多 项 式 回归 
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T. SAS - [Analyst: (new project)] 


FUO RED SEV IA BED FRO BVO HHO 
ΓΙ) #HW -|8| x 


如 New Project 2 
E1 (ay Weight Anah 


L [ft Weight 


E) Bs -... | 国 程序 编 . . . | 国 输 出 Ew] [2 程序 25... || 37 Analy... 


[E C: \Docwment | 


图 14.15 Work. weight 文件 的 内 容 ( 部 分 ) 


) 选择 “统计 ”一 “回归 ”命令 ,SAS 显示 图 14. 16. 


Y SAS — [Analyst: (new project)] 

FUO 编辑 于) SEV IA SEV RED DKO EMO Sow ορ - 5 
etit » 

JAM CD. x 

gs 起 设 检验 Q0 

al New Project ΤΙ - 方差 分 析 D 


weight 
È (I Weight Analysis 104. 43 STET] 


| 


115.24| 。 生存 分 析 W 


logistic( 


, 
, 
» 

111.16| ETH W 中 RED. 
, 
, 


样本 大 小 8) 
3951) 


Hst- c. [2] 程序 编辑 器 . . .| 国 簿 出 - c... 程序 25. ο... || 3 Analyst:. 


s XMDocuments and | 


14.16 Regression 的 菜单 位 置 


(6) 选择 图 14.16 中 的 “简单 LS]” 命 令 ， 
归 ) 及 因 变 量 weight 和 自 变量 age. 

(7) 单 击 OK 按钮 获得 回归 输出 ( 见 
图 14. 18). 

回归 分 析 如 下 。 

从 图 14. 18 的 回归 分 析 可 以 看 到 : 回归 系 
数 的 检验 概率 “Pr> |tl” 一 栏 的 概率 值 都 大 于 
a 值 0.05, 回 归 系 数 不 显 著 . 表 明 二 次 项 模型 数 
据 拟 合 得 很 不 好 。 如 果 Pr> |t| 值 小 于 a 值 
0.05, 则 二 次 项 模型 合格 。 

所 以 将 图 14. 17 中 的 回归 模型 改 回 为 
Linear( 线 性 模型 ) ,输出 结果 见 图 14. 19 所 示 。 

从 图 14. 19 的 回归 分 析 可 以 看 到 : age 回 
归 系 数 的 Pr> |t| 一 栏 的 概率 值 0.0004 小 于 a 


进入 图 14. 17 后 选择 Quadratic( 二 次 项 回 


文件 于) FEV IAW 解决 方案 (6) EOW) 帮助 00 


ν΄ 


Save Options 
Help 


ΕΠΑΝ 
Cubic 


Tests | Statistics | Predictions! 


14.17 选择 Quadratic( 二 次 项 回归 ) 及 其 


因 变 量 weight 和 自 变量 age 
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Y SAS — [Analysis] 
ERE IECIT - 8x 


Jv J| αμ analt ten peul Oe 


14:15 Monday, January 12, 2004 


The REG Procedure 
Model: MODELI 
Dependent Variable: weight 


Analysis of Variance 


Sun of Mean 

Source DF Squares Square F Yalue Pr>F 
Model 2 231.58827 115.79413 191.14 0.0052 
Error 2 1.21161 0.60581 
Corrected Total 4 232.793988 

Root MSE 0.77834 R-Square 0.9948 

Dependent Mean 114.91200 Adj R-Sa 0.9896 

Coeff Var 0.67733 


Parameter Estimates. 


Parameter Standard 
Variable Label DF Estimate Error t Yalue Pr > Itl Type I SS 
Intercept Intercept 1 -82.06943 82.93844 -0.99 0.4267 66024 
age 1 14.94586 8.32439 1.80 0.2144 230.68809 
age 2 2nd power of AGE 1 -0.25357 0.20802 -1.22 0.3471 0.30018 - 
a ————————— yf 


图 14.18 二 元 线性 回归 模型 的 输出 


Y SAS — [Analysis] 
BOXO 编辑 EE) SOW WHW -| x 


|! ὦν ! ΘΔ! 1 ποσο |0ν {8 


14:15 Monday, January 12, 4 


| 


The REG Procedure 
Model: MODEL1 
Dependent Variable: weight 


Analysis of Variance 


Sum of Mean 
Source DF Squares Square F Value Pr^F 
Model 1 230.68808 230.68809 827.71 0.0004 
Error 8 2.11178 0.70393 
Corrected Total 4 232.79988 
Root MSE 0.83901 R-Sauare 0.3303 
Dependent Mean 114.91200 Adj R-Sq 0.9879 
Coeff Yar 0.73013 
Parameter Estimates 
Parameter Standard 
Variable DF Est imate Error t Yalue ΡΕ» 
Intercept ] 18.85200 5.31959 3.54 0.0383 


age 4.80300 0.26532 18.10 0.0004 - 
«| Eee 2f 


14.19 一 元 线性 回归 模型 的 输出 


值 0.05, 回 归 系 数 变 成 非常 显著 的 了 ,表明 一 次 项 模型 非常 好 地 拟 合 数据 。 
1443 挖掘 大 学 生生 长 发 育 的 二 次 曲线 模型 


现在 假设 二 次 项 模型 拟 合 得 好 , 则 18 一 22 岁 大 学 生生 长 发 育 的 二 次 曲线 模型 如 下 : 
B, + B, X age + B: X age X age 


weight 


第 全 2* 章 。 非 线性 回归 分 析 一 :对 数 与 多 项 式 回 归 315 


一 一 82. 06943 + 14. 94586 X age — 0. 25357 X age? (14. 3) 
z E 4 


下 面 1,2 题 是 对 数 曲 线 回 归 习 题 。 

1l. 对 数 曲 线 回归 的 数学 表达 式 是 什么 ? 多 项 式 回归 ( 拟 合 抛物 线 ) 的 数学 表达 式 是 
什么 ? 

2. 下 面 的 图 14. 20 是 18 一 22 岁 男生 各 个 年 龄 组 的 平均 体重 , 试 建立 生长 发 育 曲线 。 


Report 
学 生体 重 
AGE Mean N SH. 
Deviation 
19 122.80 15 20.61 
20 127. 82 68 15.33 
21 129. 52 63 18.05 
22 129. 25 24 16.62 
Total 128. 21 170 17. 00 


图 14.20 18-22 岁 男生 各 个 年 龄 组 的 平均 体重 

提示 : 请 仿照 第 14 章 14. 3. 3 节 中 多 项 式 回 归 的 SAS 程序 完成 本 题 作业 。 
3. 拟 合 Logistic 曲线 回归 习题 
下 述 是 一 个 “产量 与 劳动 力 (L) 产量 与 资金 (KK) ”的 非 线 性 回归 的 经 济 模型 。 
(1) 非 线性 回归 的 数据 及 程序 见 第 14 章程 序 14. 1. 
(2) 非 线性 回归 模型 为 : 

LOGQ = B, +C X logC D X (L') + ( — D) X CK')) 
参数 说 明 : 
Bo: 截 距 D: 分 布 参 数 C; 斜率 , 即 效率 参数 ri 替代 参数 
(3) 请 分 析 图 14. 21 的 结果 。 


Nonlinear Regression Summary Statistics Dependent Variable LOGQ 
Source DF Sum of Squares Mean Square 
Regression 4 130. 00860 32.50215 

Residual 26 1.75613 .06754 

Uncorrected Total 30 131.76473 

(Corrected Total) 29 61. 28965 

R squared— 1 — Residual SS/Corrected SS— .97135 


14.21 非 线性 回归 统计 量 
(4) 请 分 析 图 14. 22 的 结果 。 
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Asymptotic 95 % 

Asymptotic Confidence Interval 
Parameter Estimate Std. Error Lower Upper 
Bo . 122915203 .078173035 —.0377T71171 . 283602177 
ο —.339783002 . 273431578 —.901829660 . 222263655 
D .661702568 .134549985 . 385131113 . 938274022 
R — 2. 980399350 2. 285681968 —7. 678685922 1. 717887222 


Æ 14.22 非 线性 回归 各 参数 估计 的 置信 区 间 
(5) 请 分 析 图 14. 23 的 结果 。 


Asymptotic Correlation Matrix of the Parameter Estimates 
Bo c D R 
Bo 1. 0000 . 2979 . 1801 —.3282 
ς - 2979 1. 0000 .7816 —.9991 
D . 1801 .7816 1. 0000 —.7815 
R —.3282 —.9991 一 .7815 1.0000 


图 14.23 非 线性 回归 分 析 中 的 参数 估计 的 相关 距 阵 
(6) 请 写 出 产量 的 预测 公式 (提示 : 请 参阅 14.2 节 )。 


第 15 将 κα... 
非 线 性 回归 分 析 二 : Logistic 回归 与 指数 回归 


在 经 济 统计 学 中 ,产量 与 资金 、 产 量 与 劳动 力 之 间 的 关系 ;在 物理 学 上 ,自由 落体 运 
动 与 加 速度 及 时 间 的 关系 ;在 人 口 学 上 ,人 口 增长 率 的 计算 等 ;诸如 此 类 的 复杂 计算 ,无 
法 直接 用 线性 回归 分 析 法 ,而 必须 建立 非 线 性 回归 模型 加 以 解决 。 

本 章 讲 述 的 非 线性 回归 包括 拟 合 Logistic 曲线 回归 、 负 指数 生长 曲线 回归 和 指数 回 
归 三 方面 的 内 容 。 


151 Logistic ms £& rex 3 
人 口 增长 的 例子 是 最 典型 的 Logistic 曲线 回归 例子 。 数 据 引 自 人 台湾 省 1900 年 


1980 年 期 间 每 5 年 的 总 人 口 数据 ( 见 程 序 15.1)。 并 在 图 15. 1 中 编辑 程序 15.1. 
程序 15.1: 


TITLE 'NonLinear Regression'; 
DATA rk; 

LABEL year- ' 年 份 ' ze ' 每 5 年 人 口 总 数 ,单位 : 百 万 人 ' cm 't 5 年 为 一 组 '; 
JNEUT year 1~ 4 rk 6 11 t 13~ 14; 
CARDS; 

1900 02.846 00 

1905 3.123 0L 

1910 3.300 02 

1915 3.570 03 

1920 3.758 04 

1925 4.147 05 

1930 4.679 06 

1935 5.316 07 

1940 6.077 08 

1945 6.557 09 

1950 7.556 10 

1955 9.078 11 

1960 10.792 12 
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1965 12.628 13 
1970 14.676 14 
1975 16.150 15 
1980 17.805 16 


PROC FORMAT; 


VALUE tf 0= '1900 年 人 口 总 数 ' 1— "1905 4E A ET 3 C" 


2= '1910 年 人 口 总 数 ' 3- '1915 年 人 口 总 数 ' 
5- "1925 年 人 口 总 数 ' 6- '1930 年 人 口 总 数 " 
8- '1940 年 人 口 总 数 ' 9- "1945 年 人 口 总 数 ' 
11= '1955 年 人 口 总 数 ' — 12- '1960 年 人 口 总 数 ' 
14- '1970 年 人 口 总 数 ' 15 '1975 年 人 口 总 数 ' 


4— '1920 年 人 口 总 数 ' 
大 "1935 年 人 口 总 数 ' 
10- "1950 年 人 口 总 数 ' 
13- '1965 年 人 口 总 数 ' 
16- "1980 年 人 口 总 数 '; 


FORMAT t=tf.; /* Xt VALDE 步 定义 的 数值 标签 ,反馈 给 变量 tx / 
PROC Nlin DATA- rk BEST- 200 METHOD- gradient; 


PARMS a- 1.8 TO 2 by 0.05 B- - 0.11 TO 0 BY 0.1 
MODEL Rk-C/ (1+ EXP(a* bx t)); 


在 图 15. 1 中 编辑 程序 15. 1. 


0-20; 


SAS - [£& JF 21.2.sas *] 


κ) 文件 E) 编辑 (E) «εδω 工具 (D ΙΒ) 解决 方案 (5) ”窗口 (Ww) 帮助 (H) 


Y πώ" Snl l nen] DA] x 


TITLE 'NonLinear Regression'; 


EDATA rk; 
LABEL year=' 年 份 ， rk=' 每 5 年 人 口 
CARDS; 
1900 02.846 00 


1980 17.805 16 


总 数 ， 单 位 : 


BEAA' 


tz=' 每 5 年 为 一 组 ' 


EPROC FORMAT; 
VALUE t 0='1900 年 人 口 总 数 ' 1= 
2- '1910 年 人 口 总 数 ' 3- 
5- '1925 年 人 口 总 数 ， 6= 
8- '1940 年 人 口 总 数 ， 9= 
115 '1955 年 人 口 总 数 ，12= 
14- '1970 年 人 口 总 数 ，15= 


FORMAT tetf.; 


'1905 年 人 口 总 数 ' 


'1915 年 人 口 总 数 ， 
'1930 年 人 口 总 数 ' 
"1945 年 人 口 总 数 ' 
'1960 年 人 口 总 数 ' 
'1975 年 人 口 总 数 ' 


'1920 年 人 口 总 数 ， 
'1935 年 人 口 总 数 ' 
'1950 年 人 口 总 数 ' 
'1965 年 人 口 总 数 ' 
'1980 年 人 口 总 数 '; 


EPROC Nlin DATA=rk BEST=200 
PARNS a=1.8 TO 2 by 0.05 
MODEL Rk=C/ (1+EXP (atb*t)); 


METHOD-gradient; 


B--0.11 TO 0 


9. 


1 0520; 


DAH- 《无 标题 .| ΕἸ 日 志 - 《无 标题 .. || 轩 程序 21.2.sas。 图 程 序 23.13.sAs 


[E C:\Documents and Se 1η 25, Col 1 


15.1 台湾 省 1900 年 一 1980 年 期 间 每 5 年 的 总 人 口 数据 及 程序 


说 明 : 程序 15. 1 中 的 METHOD — gradient 语句 表明 :是 采用 Gradient 法 , 即 梯度 
法 (Gradient method) ,又 称 急剧 下 降 法 (Steepest Descent method) 。 详 见 第 14 章 的 开头 


介绍 。 


as 非 线 性 回归 分 析 二 : Logistic [8] J3 -5 78 2k [9 J3 
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1. 建立 非 线性 回归 模型 


上 述 图 15.1 的 人 口 总 数 是 随 着 年 份 的 递增 而 非 线 性 地 增长 的 , 它 符合 如 下 人 口 增 

长 的 模型 : 
Yi; = C/Q d e^?) +E (15. D 

式 (15.1) 是 一 个 Logistic 人 口 增长 模型 ,Y; 是 在 T; 时 间 点 的 人 口 规模 ,A ΠΒ 这 两 
个 系数 是 需要 计算 的 非 线性 回归 方程 解 的 两 个 初始 参数 。 

式 (15.1) 中 的 C 是 表示 人 口 增长 模型 的 渐 近 线 , 这 条 渐 近 线 是 由 现行 数据 中 任意 选 
出 的 , 既 可 选择 最 后 一 年 的 人 口 数 , 也 可 选择 其 中 某 一 年 的 人 口 数 , 本 例 选 择 了 数据 最 后 
一 年 的 总 人 口 数 。 

式 (15.1) 中 的 已 是 误差 项 ,误差 的 大 小 依赖 于 人 口 数量 的 变化 ,但 为 了 计算 上 的 方 
便 , 先 假定 它 是 常数 0。 


2. 拟 合 Logistic 曲线 回归 中 初始 值 ABC 的 解 


在 指数 曲线 回归 之 前 ,首先 必须 人 工 计 算出 初始 值 A 和 B, 然 后 将 A、B 的 值 代入 式 
(15.1), 计 算出 各 个 时 间 点 的 Y 值 。 
为 了 计算 初始 值 A、B, 首 先 应 给 渐 近 线 C 赋予 一 个 具体 的 值 ,本 例 选择 了 最 后 一 年 
即 1980 年 台湾 省 的 总 人 口 数 并 取 最 接近 的 整数 为 20 百 万 人 。 同 时 假设 初始 时 间 点 
Y; —1900 年 , 即 初始 的 人 口 总 数 为 2.846 百 万 人 ,因此 式 (15. 1) 变 换 为 
2.846 = 20 + (1 十 ea+tsm ) (15. 2) 
然后 根据 式 (15.2) 计 算 A 和 B 参数 值 。 
1) 先 求 出 系数 值 A 
A 的 值 可 在 T。 时 间 点 直接 求 出 , 即 
2.846 = 20 = (1 + e^*?*?) 


移 项 并 整理 后 得 : 
e^ — 6.027 (15.3) 
对 式 (15. 3) 两 边 求 自然 对 数 后 得 : 
Α -- Ln(6.027) -- 1.8 
2) 青 解 出 B 系数 值 
同 理 , 可 从 原始 数据 中 T=1 时 间 点 的 人 口 总 数 2. 846 百 万 人 中 , 解 出 B 值 。 
将 A 二 1.8 代入 式 (15.2) 得 : 
3.123 一 20 二 (1 十 ets+8) 
移 项 并 整理 后 得 : 
erstB 一 5.4 (15. 4) 
式 (15. 4) 两 边 取 对 数 得 : 
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1.8-4- B = Ln(5. 4) (15. 5) 
B = 1.69 — 1. 8 ——0. 11 


3. 把 A,B,C 系数 代入 Logistic 模型 


由 于 目前 的 SAS 版 本 不 能 用 对 话 框 进行 非 线 性 回归 分 析 , 因 此 需要 在 程序 15. 1 的 
最 后 增加 指数 回归 命令 , 详 见 程序 15.2. 

1) 指数 回归 的 数据 及 命令 行 

程序 15.2; 


TITLE 'NonLinear Regression'; 

DATA rk2; 

LABEL year- VE[f)' ze fj 5 年 人 口 总 数 ,单位 : 百 万 人 ， te Mg SEEDS — HH s 

INEUT year 1- 4 rk 6-11 t 13~ 14; 

CARDS; 

1900 02.846 00 

1905 3.123 01 

1910 3.300 02 

1915 3.570 03 

1920 3.758 04 

1925 4.147 05 

1930 4.679 06 

1935 5.316 07 

1940 6.077 08 

1945 6.557 09 

1950 7.556 10 

1955 9.078 11 

1960 10.792 12 

1965 12.628 13 

1970 14.676 14 

1975 16.150 15 

1980 17.805 16; 

PROC FORMAT; 

VALUE tF 0- '1900 年 人 口 总 数 ' 1— 1905 4E A O C" 
2- "1910 年 人 口 总 数 ' 3- "1915 年 人 口 总 数 ' 4— "1920 年 人 口 总 数 ' 
5- "1925 年 人 口 总 数 ' 6- "1930 年 人 口 总 数 " 大 "1935 年 人 口 总 数 ' 
8- '1940 年 人 口 总 数 ' 9- "1945 年 人 口 总 数 ' 10- '1950 年 人 口 总 数 ' 
11= '1955 年 人 口 总 数 ' — 12- '1960 年 人 口 总 数 ' 13- '1965 年 人 口 总 数 ' 
14- '1970 年 人 口 总 数 ' 15= '1975 年 人 口 总 数 ' 16= "1980 年 人 口 总 数 '; 

FORMAT t- tF.; 

PROC Nlin DATA rk METHOD- GRADIENT; 

PARMS A— 1.8 to 2 by 0.1 B=- 0.11 TO 0.01 by 0.1 C= 20; 

MODEL Rk- C/ (1+ EXP (at bx t)); 

RUN; 
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2) 生成 SAS 的 数据 集 Work. rk2 

CD 在 程序 编辑 器 窗口 选择 "运行 >>“ 提交 ”命令 ,运行 程序 15. 2, 形 成 SAS 数据 集 
Work.Rk2。 

(2) 与 此 同时 产生 图 15. 2 一 图 15. 5 所 示 的 指数 回归 的 输出 结果 。 
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运行 程序 15. 2 产生 图 15. 2 一 图 15. 5 所 示 的 输出 结果 。 


AID AAD FEV IAV FAIRO WOW WHW 司 可 四 
Ὕ σσ Πω ὸι 
Iteral ive Phase smof M 
5 |quares 


20.0009 
20.0008 
20.0008 
20.0003 
20.0010 


的 
"0 
1 
2 
3 
a 
5 
8 
τ 
8 
3 
0 
1 
2 
3 
4 


T—T—— — n 


6. 7i 
8.7: 
6. 5: 
[8] 
8.4. 
H 
6.21 
6.2: 
6. 0l 

E 
E 


24.8443 


m 


NorLinear Regression 


The Ν.ΙΝ Procedure 
Dependent Variable rk 


Grid Search 
A 
1.8000 


-0.0100 5 s 
ο ος | imi 


m 
EAEE] 


E 


(b) MISRA- B- C 
图 15.2 每 步 的 残 差 平方 和 及 残 差 估计 
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4. 'TTYERE: 


1531 参数 估计 


1. 何 时 和 迭代 终止 


图 15.2(a) 中 ,每 步 的 残 差 平方 和 分 别 为: 

0 182.3: (未 显示 出 来 ) 表 示 第 0 次 ( 即 初始 ) 的 残 差 平方 和 为 182. 8. 

98 35.0595; 表示 第 90 次 迭代 时 的 残 差 平方 和 为 35. 0595。 

99 34.9912; 表示 第 99 次 迭代 时 的 残 差 平方 和 为 34. 9912. 

100 34.9443; 表示 第 100 次 迭代 时 的 残 差 平方 和 为 34. 9443。 

说 明 : 迭代 次 数 越 往 后 , 残 差 平方 和 则 越 小 ,最 后 两 次 迁 代 时 残 差 平方 和 如 果 几 乎 接 
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RRT 100 次 (默认 值 为 最 大 迭代 次 数 100 次 ), 虽 然 尚 未 收敛 ,但 是 不 得 不 终 
和 迭代。 
图 15.2(b) 中 ,指出 了 回归 参数 Α.Π.Ο 的 具体 内 容 。 
A: 相当 于 回归 方程 中 的 截 距 ,数值 1. 8 是 用 户 解 出 的 初始 值 。 
B: 相当 于 回归 方程 中 的 斜率 ;数值 (一 0. 11) 是 用 户 解 出 的 初始 值 。 
回归 方程 的 渐 近 线 :C 一 20 也 是 人 为 解 出 的 初始 值 。 


2. 非 线 性 回归 模型 的 统计 量 
图 15. 3 是 非 线性 回归 模型 的 概括 统计 量 。 


国 文件 下) dac) E) TRAC) 解决 方案 人 G) SOW 帮助 0 -|8| x 


IET 可 口号 国 | 名 BI% 
Sum of Mean Approx e 
Source DF Squares Square F Yalue Pr >F 
Model 3 1376.6 458.8 183.84 «.0001 
Error 14 34.8443 2.48360 τι 
Uncorrected Total 1? 1411.5 m 
58 
ES imi 


----- Φε... - τ. 程序 26. 1. 545 LE 程序 26. 2. SAS 
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15.3 非 线 性 回归 模型 的 概括 统计 量 


3. 统计 量 解释 


Model Sum of Squares; 是 已 被 解释 的 回归 平方 和 (其 值 为 1376. 6)。 

Erorr Sum of Squares; 未 被 解释 的 残 差 平方 和 (其 值 为 34. 9443)。 

Uncorrected Total Sum of Squares; 因 变 量 的 总 平方 和 (其 值 为 1411. 5)。 
Corrected Total Sum of Squares: 偏离 均值 的 平方 和 .SAS 9 不 显示 此 值 。 

R squared 一 1 一 Residual SS/Corrected SS=1 —0. 03=0. 97: 确定 系数 ,或 称 判 定 系 
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数 。0. 97 值 表示 被 模型 解释 的 方差 占 因 变量 (Rk, 人 口 ) 的 总 方差 的 97%。 
本 例 中 (CR squared) —0. 97 接近 于 1, 说 明 模 型 很 好 地 拟 合 了 数据 。 


1532 参数 近似 的 置信 区 间 


1. 置信 区 间 


在 非 线 性 回归 模型 中 ,不 能 获得 各 个 参数 精确 的 置信 区 间 , 因 此 ,必须 如 图 15. 4 所 
示 对 样本 采取 “ 渐 近 线 ” 的 近似 计算 。 


Y SAS [E fid (无 标题 ) ] 


NonLinear Regression 19:17 Monday, January 12, ZU] 


The NLIN Procedure 


Approx 
Parameter Estimate Std Error Approximate 95% Conf idence Limits 


1.9866 0.2997 1.3438 2.6295 
0.0629 


-0.1865 -0.3213 -0.0517 
20.0018 7.2867 4.3735 35.6301 图 


Επ πα. πο | imi 


EET Es... . | 图 程序 26..…. | 图 .. | BeF.. = 


[C:\Documents and 5.| 


图 15.4 参数 近似 的 置信 区 间 


对 图 15. 4 的 各 个 参数 说 明 如 下 : 

Parameter: 参数 ,有 A,B,C 三 个 参数 。 

Estimate; 参数 的 估计 值 ; 如 A 参数 的 估计 值 为 1. 9866,B 参数 的 估计 值 为 
一 0. 1865 等 。 

Approx Std Error; 通 近 的 标准 误差 。 如 渐 近 线 C 的 标准 误差 为 7.2867, 截 距 A 的 
标准 误差 为 0.2997 等 。 

Approximate 95% Confidence Limits; 通 近 的 95% 和 置信 和 度 。 

Lower: 95%% 置 信 度 的 下 限 : 如 A 参数 的 下 限 为 1. 3438. 

Upper: 95%% 置 信 度 的 上 限 ,如 A 参数 的 上 限 为 2. 6295。 

从 95%% 置 信和 度 的 上 下 限 值 看 来 ,ABC 三 个 参数 的 上 下 限 均 不 经 过 坐标 原点 0, 所 
以 有 理由 拒绝 原 假 设 。 接 着 继续 观察 下 面 的 “2”。 


2. 逼近 的 相关 抵 阵 ( 见 图 15.5) 


ΒΗ. 图 15.5 中 的 B 55 C 参数 之 间 的 相关 系数 具有 很 大 的 相关 系数 ,该 模型 很 可 
能 “ 超 参 数 ”( Over Parameterized)。 超 参数 暗示 着 模型 的 B 与 C 参数 不 拟 合 数据 。 原 
因 可 能 在 于 数据 量 太 小 致使 不 足以 估计 全 部 参数 。 
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T sas- [输出 — (无 标题 ) ] BEE 
国 文件 四 SO SEV IAV 解决 方案 @) SOW WHW 
.]89|x 


[ΕΤ zijmDzemienul!: 


Approximate Correlat Jom Mat rix 
D 


t 
-0000000 0.3273623 0.6275146 


^ 1.0 

B 03273623 1.0000000 0.9325616 

6 0.6275146 0.9325816 Ut unu 
ζ] n ] 
Bst... BaS.. 


us ADocuments -i 


图 15.5 逼近 的 相关 和 矩阵 


3. 残 差 验证 


回归 时 应 存储 期 望 值 和 残 差 ,并 画 出 残 差 对 应 年 份 的 曲线 图 (如 散 点 图 等 ) ,便于 研 
究 模 型 的 拟 合 优 度 。 

计算 期 望 值 和 通 近 的 标准 误差 一 般 是 用 界外 点 COutlier) 检 测 法 ,以 及 对 影响 点 (个 
案 ) 的 分 析 法 ,. 即 用 线性 回归 过 程 。 残 差 则 是 从 非 线性 回归 模型 中 计算 的 。 从 图 15. 3 中 
的 Residua { 34. 9443 看 , 残 差 平方 和 为 略为 偏 大 ,但 合格 。 


1533 用 Logsic 曲线 发 所 人 口 数 据 


由 图 15. 4 统计 与 预测 结果 可 以 得 出 台湾 省 2005 年 人 口 的 预测 值 如 下 。 
Y=C/(1+ ΕΧΡ(Α + B x T) = 20/(1 + EXP(1. 9866 — 0.1865 x T) 
—20/(1 十 EXP(1. 9866 — 0.1865 X 215) 
220 百 万 人 (但 迭代 到 100 次 后 尚未 收敛 ) 
VE BB. 
CD 加 上 误差 项 ,可 预测 到 台湾 省 2005 年 人 口 的 预测 值 约 为 21( 百 万 人 ) 。 
(2) 同样 的 数据 ,用 程序 15. 2 中 的 METHOD-—GRADIENT 回归 法 , 比 用 其 他 回归 
法 相对 要 准确 。 
(3) 同样 的 数据 ,分 别 用 SPSS 和 SAS 中 的 相同 回归 方法 时 ,预测 的 结果 会 有 很 大 的 
误差 。 根 据 试 验 , 之 所 以 误差 如 此 大 ,原因 之 一 是 因为 迭代 到 100 次 后 尚未 收敛 。 
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.什么 时 候 应 采用 负 指 数 生长 曲线 模型 


符合 下 面 式 (15. 6) 的 数据 应 采用 负 指 数 生 长 曲线 模型 。 
Y = Bo(1 一 e exx) (15.6) 
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2. 负 指 数 生 长 曲线 的 例子 
负 指 数 生长 的 数据 例子 见 表 15. 1, 假 定数 据 拟 合 负 指数 生长 。 
表 15.1 某 公司 每 月 产品 的 合格 率 


XAH) 1 È 3 4 5 6 
YARE) 0. 69 0.73 0.76 0. 80 0. 84 0. 89 
X( 月 份 ) 7 8 9 10 11 12 
Y( 合 格 率 ) 0. 95 1.00 0.95 0. 89 1.00 0.98 


本 节 着 重 按 表 15.2 所 示 的 体重 减肥 数据 ,挖掘 体重 减肥 趋势 的 预测 模型 。 
表 15.2 体重 减肥 趋势 (累计 数 ) 


X( 月 份 ) 1 2 3 4 5 6 

YCF) 6.9 7.3 7.6 8.0 8.4 8.9 
XAH) 7 8 9 10 11 12 
YCF) 9.5 9.9 10.5 11:5 12:5 13:5 


假定 表 15. 2 的 数据 拟 合 负 指数 生长 趋势 , 则 按照 下 面 所 介绍 的 方法 解答 。 
3. 负 指 数 生长 曲线 初始 值 的 解法 


进行 指数 曲线 回归 之 前 ,首先 必须 计算 初始 值 Bo. Βι 和 X, 然 后 将 初始 值 代 入 
式 (15.6), 计 算出 各 个 时 间 点 的 Y 值 。 

为 了 计算 初始 值 , 首 先 应 给 Bo 赋予 一 个 具体 的 值 , 本 例 选 择 了 最 后 一 个 月 ( 即 第 12 
个 月 ) 最 接近 的 体重 为 14 斤 , 同 时 假设 时 间 点 Y; — X. 点 的 体重 为 6.9 斤 , 因 此 式 (15. 6) 
可 变换 为 : 

Y = Bo (1 — e™:**) 
6.9 = 14(1— e 5h!) (15. 7) 
然后 根据 式 (15.7) 计 算出 如 下 的 Bi 参数 值 。 

1) 先 求 出 B, 的 系数 值 

B, 值 可 在 X, 时 间 点 直接 求 出 . 即 

6.9= 14(1—e€™*!) 


移 项 并 整理 后 得 : 
ο δρα — 0.51 (15.8) 
对 式 (15. 3) 两 边 求 自然 对 数 并 移 项 后 得 : 
B, — 1.67 


2) 再 解 出 Bo 的 系数 值 
同 理 , 可 从 原始 数据 的 X — 2 时 间 点 : 解 出 
B.—43.6 (15. 9) 
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4.“ 挖 掘 7" 负 指数 生长 的 曲线 模型 


将 初始 值 Bo Bı 值 代入 负 指 数 生长 的 曲线 模型 后 获得 式 (15. 10). 
Y = B,(1— e) = 7, 60 — ο) (15.10) 
下 面 用 简单 的 编程 法 定义 数据 和 建立 模型 , 详 见 程序 15. 8. 


5. 用 编程 法 产生 负 指 数 生长 曲线 


1) 用 编程 法 ( 见 程序 15. 3) 发 掘 负 指数 生长 曲线 
程序 15.3: 数据 及 其 指数 回归 的 命令 。 


TITE ' 负 指数 生长 曲线 模型 '; 
IAEEL X= ' 月 ' γυ-' ΒΡΕ: ΠΠ; 


1 6.9 2 7.3 3 7.6 4 8.0 5 8.4 6 8.9 7 9.5 8 9.9 

9 10.5 10 11.5 11 12.5 12 13.5 

PROC NLIN DATA= YER BEST- 100 METHOD- MARQUARDT; 

PARMS b0= 7.6 TO 8 bl= 1.67 TO 2; 

Model Y-B0* (1- EXP(- bl * X)); 

RUN; 

2) 运行 程序 15. 3 产生 结果 

(1) 在 程序 编辑 器 窗口 选择 Run Ge fT) Submit HE 35) áp 4 ,运行 程序 15. 3 一 形成 
SAS 数据 集 work. ΥΕΝ. 

(2) 与 此 同时 产生 图 15.7 至 图 15. 10 所 示 的 指数 回归 输出 结果 。 
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下 面 分 析 图 15.6 至 图 15. 10 所 示 的 回归 结果 。 
1. 参数 估计 


1) 何 时 迭代 终止 

(1) 图 15. 6 是 每 步 迭 代 时 的 残 差 平方 和 。 

对 于 图 15. 6, 应 该 观察 每 步 的 残 差 平方 和 。 

和 迭代 次 数 越 往 后 , 残 差 平 方 和 则 越 小 ,最 后 两 次 迭代 时 残 差 平方 和 如 果 几 乎 接近 ( 仅 
差 0. 00001 左右 ), 则 达到 了 收敛 标准 ,本 例 迭 代 了 18 次 就 终止 。 

从 图 15.6 还 可 看 出 : 
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B0: 相当 于 回归 方程 中 的 截 距 (8. 0000). 
相当 于 回归 方程 中 的 斜率 (1. 9700) 。 
(2) 下 面 图 15.7 是 迭代 的 小 结 。 


国 文件 四 μα) πο IAV 解决 方案 G) 窗口 
帮助 00 -85x 


~ DS θὰ 


The NLIN Procedure 
Dependent Variable Y 


Grid Search 
Sun of 
Bü Bl Squares d 


.9700 76.2702 


8. 1 
8.0000 1.6700 76.2910 
7.3000 1:3700 80.3484 
7.3000 118700 80.4658 
7.8000 1:9700 84.6604 
7:8000 1.6700 84.8722 
7.7000 1:3700 89.2064 
7:7000 1:6700 89-5100 
7.6000 1.9700 93.9862 一 
7.6000 1:6700 34.3792 (无 标题 ) [- (mx) 
η hn 文件 FE) 编辑 于) SEV IAD 
The NLIN Procedure 
Dependent. Variable Y 解决 方案 G) WOW MHW 
Method: Marquardt 
i Phe 
Heretivo Maso Sun of Estimation Summary 
Iter BI Saares 
ῃ 1.9700 26.2702 [is m We 
1 0:5985 — 382711 b tere Tons H 
i PAM Won Average Subiterations 0.444444 
4 0:4317 25.7701 
5 0.4188 25.7230 
8 0:418 — 25.7090 
i VAM) 28:7037 
: : Übjective 
3 0.4052 25:7033 ; 
" WEE servat ions Used 
1 0.4042 25.7032 Observat ions Missing 
13 0.4041 25.7032 
14 ΠΑΙΔῚ 25.7032 a ”一 
" μη 
17 0.4040 25.7032 Bs.. E 图 程 ..| 
18 0.4040 25.7032 3 
« u | 2 
15.6 每 步 和 迭代 时 的 残 差 平方 和 15.7 和 迭代 的 小 结 


从 图 15.7 可 看 出 ,本 例 迭 代 了 18 KERIEN. 
2) 非 线 性 回归 模型 的 统计 量 


如 图 15. 8 所 示 ,回归 平方 和 为 1116.0。 但 未 被 解释 的 残 差 平方 和 为 25.7032, 较 大 ， 


因此 引起 了 : 


Deb - “无 标题 ) 
BrO REO SEV IRAY 解决 方案 G) SOW 
才 助 人 0) -Sx 
|D» "8 ἃ! 


NOTE: An intercept was not specified for this model. 


Sum of Mean - 


Source DF — Squares Saure F Value 
Model 2 1116.0 558.0 217.08 
Error 10 — 25.7032 2.5703 
Uncorrected Total 12 1141.7 

图 | .| 


Bst... Elm... | EB er... | 图 编辑 .… | Ber... | 
15.8 被 解释 的 方差 
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R? =1— (Residual SS)/ (Corrected Total SS) 无 法 计算 。 


T sas — [输出 一 “无 标题 ) ] 
BAXO 编辑 EE) SEV IR(D 解决 方案 G) SOW 帮助 0) - 5 


ο oy S alsm e) 


Approx a 
Parameter Estimate Std Error Approximate 95% Confidence Limits = 


11.2500 0.8237 3.4147 13.0852 
0.4040 0.1118 0.1547 0.6532 LI] 


—MÀÁ——MMMÁÀ' 国 


[ss --- OE -...[ Are... | 园 编辑 器 .. . | 程序 26... | 
c: Documents an| ž A 


图 15.9 回归 截 距 B, 与 斜率 B, 


图 15.9 各 个 参数 的 含义 如 下 。 

Parameter: 有 Βο.Βι 参数 。 

Estimate: 参数 的 估计 值 ;如 Bo 参数 的 估计 值 为 11. 2500。 

Approx Std. Error: 逼近 的 标准 误差 。 如 Bo 参数 的 标准 误差 为 0.8237( 偏 大 )。 
Approximate 95 % Confidence Limits; 481 9 95 6 PE fri HE, 

Lower: 95% 8 fri BER FER. ΠΠ Bo 下 限 为 9.4147。 

Upper: 95% 置 信和 度 的 上 限 ,如 Bo Γ[Ε 13. 0852. 

从 95% 置 信和 度 的 上 下 限 值 看 来 ,两 个 参数 的 上 下 限 均 不 经 过 坐标 原点 0, 因 此 有 理 
由 拒绝 原 假 设 . 即 系 数 不 为 0。 青 看 下 面 


AXFO MED ΠΚΕ 
窗口 由， 帮助 0 3) iB yr 4H ΧΕΙ: 
| > Approximate Correlation Ἐπ 从 图 15. 10 逼近 的 相关 和 矩阵 看 来 ,参数 Ρο 
B0 κο ρα 与 BI 的 相关 系数 为 | 一 0. 7552140 | ,比较 大 。 
B1 -0.7552140 1.0000000 a 原因 之 一 是 样本 的 数据 量 太 小 致使 不 足 以 佑 
κ. pl a 计 全 部 参数 。 
ELMIEN aeneae. D RAE 
在 SAS 的 回归 中 ,应 记 住 存储 期 望 值 和 
国 45.40 KE IBHRSS TENE 残 差 ,并 面 出 残 差 对 应 年 份 的 曲线 图 (如 散 点 


图 等 ) ,便于 研究 模型 的 拟 合 优 度 。 

计算 期 望 值 和 副 近 的 标准 误差 一 般 是 用 Outlier 检测 法 以 及 对 影响 点 个 案 的 分 析 
法 , 即 用 线性 回归 过 程 。 而 残 差 则 是 从 非 线性 回归 模型 中 计算 的 。 从 图 15. 8 知 : 残 差 平 
Ji fli 25. 7032. 

所 以 本 数据 不 拟 合 负 指数 生长 曲线 ,但 是 所 述 的 负 指 数 生长 曲线 回归 方法 不 失 一 般 
性 。 请 试用 下 述 15. 6 节 的 正 指数 回归 重 做 回归 分 析 ,然后 比较 二 者 的 结果 。 
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2. 负 指 数 生长 曲线 的 模型 


根据 图 15.9 中 的 回归 截 距 Bo 与 斜率 Bi .可 写 出 以 下 的 负 指 数 生长 曲线 的 模型 ; 
Y = Βο(1 -- e 5X) = 11.25(1 — e? fx) G5. T5 


156 3A 3 m 28 ΥΞ AFP m ys 


设 有 表 15. 3 中 的 数据 , 试 拟 合 指数 曲线 Y= 二 Ae™ 。 
表 15.3 拟 合 指 数 曲 线 Y 二 Ae™ 的 数据 (体重 逐 月 减轻 , 即 非 累积 ) 
月 份 1 2 3 4 
体重 减肥 ( 克 ) 1900 1800 1600 1400 1100 700 500 500 


σι 
o 
-ᾱ 
œ 


1561 建立 指数 曲线 Y= Ae' 的 回归 模型 


根据 表 15. 3 中 的 数据 ,建立 的 指数 曲线 Y= 二 Ae 回归 模型 见 程 序 15. 4。 
程序 15. 4: 


DATA jfei; 
INEUT month decrease@ @ ; 
CARDS; 
1 1900 2 1800 3 1600 4 1400 5 1100 6 700 7 500 8 500 
; 
EROC NLIN EEST= 50 METHOD- marquardt; 
PARMS A= 3000 TO 2600 
B- - 0.5 TO 0; 
MODEL decrease- a* EXP(b* month); 
RUN; 


运行 程序 15.4 产生 图 15. 11 至 图 15. 15 所 示 的 结果 。 
1562 分 析 指 数 曲 线 YA 回归 结果 
1. 图 15. 11 至 图 15. 14 是 指数 曲线 Y= 二 Ae” 的 回归 输出 图 形 


2. 结果 分 析 


(1) 方差 分 析 。 从 图 15. 14 可 以 看 到 : 
Model Sum of Squares (Regression SS); 是 已 被 解释 的 回归 平方 和 (其 值 为 
13397502). 
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Dei - “无 标题 ) [- ] 
BXD 编辑 SEV IAV 解决 方案 GE) SOW 
-|8| x 
|o= Θὰ 
19:17 Monday, January 12, 国 | 


The NLIN Procedure E) 
Dependent Wariable decrease 


Grid Search 
Sum of 
A B Squares 


3000.0 -0.5000 3743214 


7 Monday, January 12 


图 15.11 模型 中 A、B 系数 的 初始 值 


T sas - [输出 - “无 标题 ) ] 


E) 文件 中 dag) 查看 IAV 解决 方案 E) SOW 
0 


Dependent Yariable decrease 
Method: Marquardt 


Iterative Phase 
Sun of 
Squares 


-0. 3743214 
-0. 1646280 
-0. 204925 
-0. 172538 
-0. 172488 
-0. 172488 
-0. 172488 
-0. 172488 


NOTE: Convergence criterion met. 
- -- 


e Daea gu. Fr gue 


E MDocunents T 


15.12 RI 


(无 标题 ) 1 


ΟΤΕ: Convergence criterion net. 
Est imation Summary 
Method Marquardt. 
Iterat ions H 


Subiterat ions 8 
Aereo Subiteret long 1.142857 


172498.4 
8 


8 
Observat ions Missing 0 


= "τ. EJ 


ECC Oez... | aer.. | Aer.. | AEF.. 
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15.13 程序 运行 的 概述 
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Y sas — [b - (无 标题 -= ox] 
BrO 编辑 人 E) SEV IA FADRO SOW WHW -x 
|D mlga ean 


NOTE: An intercept was not specified for this model. 


Sum of Mean Approx 
Source DF Squares Square F Yalue Pr? F 


Model 2 13397502 6638751 233.00 «.0001 - 
Error 6 172498 287493.7 
apanas Total 8 19670000 国 


— imi 


[SEE εως. .| 图 程序 26.. 程序 26. . = 程序 26. . 


ES MDocuments and : H 


图 15.14 被 解释 的 方差 


Error Sum of Squares (Residual SS) ; 未 被 解释 的 残 差 平方 和 (其 值 为 172498) 。 

Uncorrected Total Sum of Squares: 因 变 量 的 总 平方 和 (其 值 为 13570000)。 

Corrected Total Sum of Squares: 偏离 均值 的 平方 和 (其 值 为 2288750, 但 SAS9 不 
显示 ) 。 

R squared— 1 — Residual SS/Corrected SS = 1 — 172498 + 22887500. 92. 确定 系 
数 , 或 称 判 定 系数 为 0.92。 此 值 表 示 被 模型 解释 的 方差 占 总 方差 的 92% ,模型 合格 。 

(2) 置信 度 分 析 。 对 图 15. 15 的 统计 解释 如 下 。 


Y sas — [输出 - (ΚΕ Ι 


Approx 
Parameter Estimate Std Error Approximate 95% Confidence Limits 


A 2504.1 208.1 1885.0 3013.2 
B -0.1834 0.0246 -0.2435 -0.1233 


Approximate Correlation Matrix 
Α 


Α 1.0000000 -0.8301815 Bi 
B -0.8301815 1.0000000 a 


E p] [- 


[πα —.- 国 日 志 - ...| 图 程序 26..….| [o raros... | 图 程序 26.. s 


ÍE3 C: XDocunents and :| 


15.15 系数 的 估计 值 


Parameter: 参数 .有 A,B 参数 。 

Estimate; 参数 的 估计 值 。 如 B 参数 的 估计 值 为 一 0. 1884. A 参数 的 估计 值 为 
2504.1, 

Approximate 95% Confidence Limits; 逼近 的 956 Pi [ri HE 

左 栏 (Lower): 95% BARER FIRI A 的 95%% 置 信 度 的 下 限 为 1995. 0)。 

右 栏 (Upper) : 95%% 置 信和 度 的 上 限 ( 如 A 的 95%% 置 信和 度 的 上 限 为 3013. 2) 。 

TEX. 由 于 本 例 95%% 置 信 区 间 的 上 下 限 不 经 过 坐标 原点 .所 以 可 拒绝 系数 为 0 的 原 
假设 。 
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(3) iB ir BUR ORARE 

从 图 15. 15 逼近 的 相关 矩阵 可 看 出 ,参数 A 与 已 的 相关 系数 为 | 一 0.8301815 | ,很 
大 。 所 以 该 模型 很 可 能 “* 超 参数 ”( Over Parameterized) 。 但 出 现 超 参数 时 不 一 定 意 味 着 
模型 完全 不 拟 合 数据 ,因为 本 例 的 Cases 太 少 ,可 能 导致 不 足以 估计 全 部 参数 。 


1563 指数 曲线 的 预测 
最 后 ,获得 指数 曲线 的 预测 公式 如 下 : 
decrease = a * EXP(b κ month ) = 2504.1 * EXP(C— 0. 1834 * month) (15.12) 


Ξ ER 15 


. SAS 中 的 NLIN 过 程 的 迭代 法 主要 有 哪 几 种 ? 

. 18 Logistic 曲线 回归 的 数学 表达 式 是 什么 ? (提示 : 见 第 15 章 15.2 节 ) 
. 负 指 数 生长 曲线 的 数学 模型 是 什么 ? (提示 : 第 15 章 15.4 节 ) 

. 指数 生长 曲线 的 数学 模型 是 什么 ? (提示 : UL 15.6 35) 


入 Dr 
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用 Logistic 过 程 做 人 逆 辑 斯 带 克 回归 


本 章 介 绍 Logistic Regression 过 程 的 应 用 ,这 是 对 因 变 量 是 二 分 变量 (0 与 1 编码 )， 


自 变 量 是 区 间 ( 定 距 ) 以 上 变量 的 回归 分 析 。 


当 因 变量 只 有 两 个 值 (0 与 1) 时 , 若 采 用 多 元 线性 回归 , 则 预测 值 不 能 落 入 0 一 1 区 
间 。 若 采用 线性 判别 分 析 , 虽 然 允许 对 自 变 量 直接 分 组 预测 ,但 是 自 变量 正 态 分 布 的 假 
设 , 以 及 两 组 协 方差 相等 的 假设 ,需要 最 佳 的 预测 规则 。 因 此 , 当 因 变量 只 有 0 与 1 这 两 
个 值 时 ,应 该 采用 Logistic Regression 模型 估算 出 一 个 事件 发 生 的 概率 。 这 种 模型 所 需 


的 假设 , 比 判 别 分 析 所 需 的 假设 简要 得 多 。 
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在 逻辑 斯 蒂 克 (Logistic) 回 归 中 , 可 直接 计算 一 个 事件 发 生 的 概率 。 
CD 对 于 只 有 一 个 自 变 量 的 Logistic Regression 回归 模型 ,可 以 写成 : 


Prob(event) = e+: ΧΙ} /(] 十 eB tBixXp γ (16. 
或 
Prob(event) = 1/41 + e cao+Bx2xa) ) (16. 
3X C16. 2) 中 
Bo: 回归 和 截 距 。 
Bis 是 从 数据 中 计算 出 的 回归 系数 。 
Xi : 是 自 变量 。 
e: 是 自然 对 数 的 底 ,e~2. 178. 
(2) 对 于 多 个 自 变 量 的 Logistic Regression 模型 ,可 以 写成 式 (16. 3)。 
Prob(event) = &/(1 + e) (16. 
或 
ProbCevent) = 1/0 + e=) (16. 


RAG. 4) rn. Z 是 线性 结合 模型 , 即 


Z= Βο - ΒιΧι + Ba Xo b: + BpXp (16. 


(3) 事件 未 发 生 的 概率 ,可 写成 : 


Prob(no event) = 1 — prob(event) (16. 


1) 


2) 


8) 


4) 


5) 


6) 
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(4) Logistic Regression 的 曲线 图 。 

如 果 能 画 出 Logistic Regression 的 曲线 图 ,从 图 中 便 可 看 到 Logistic 回归 曲线 呈现 
S 型 。 它 非常 类 似 于 正 态 分 布 的 累积 概率 曲线 。 但 不 管 2 值 如 何 , 概 率 (prob) 值 总 在 
0—1 ZR. 

在 线性 回归 模型 中 ,是 用 最 小 二 乘 方 来 估算 模型 的 参数 。 所 谓 最 小 二 乘 方 ,是 指 因 
变量 的 实际 观察 值 与 期 望 值 之 间 的 距离 的 最 小 平方 和 。 

在 Logistic 回归 模型 中 ,是 用 最 大 似 然 度 法 (maximum-likelihood method) fii iT H FK 
型 的 系数 , 即 这 种 系数 是 最 接近 于 观察 结果 。 而 且 , 因 为 这 种 Logistic 回归 是 非 线 性 的 ， 
因此 ,估算 系数 时 需要 采用 迭代 计算 。 
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1980 年 ,美国 科学 家 Brown 对 53 名 前 列 腺 癌症 患者 进行 预测 和 研究 ,他 报告 了 每 
位 患者 的 年 龄 (age) .血清 磷 化 物 实 验 结果 ( 如 果 瘤 细胞 扩散 ,其 值 升 高 ) ,以 及 疾病 的 阶 
段 .X 射线 的 结果 。 报 告 的 每 一 项 ,就 是 一 个 变量 。 然 后 根据 这 些 变量 的 数据 ,预测 出 淋 
巴结 瘤 细 胞 是 否 呈 现 阳 性 。 

本 章 用 相似 的 方法 ,调查 了 350 名 大 学 生 , 研 究 恋 爱 与 否 ( 变 量 ν--ο 未 恋爱 ,V= 二 1 
已 恋爱 ) ,与 年 龄 (age)、Location( 地 区 )、 各 科 平 均 成 绩 (Score)、 性 别 (sex) 以 及 身高 
(height) 等 变量 的 关系 。 其 中 Location 和 sex 编码 为 (0 一 1) 两 个 水 平 。 例 如 Location 一 
0 为 来 自 农村 的 学 生 ,Location 二 1 为 来 自 城市 的 学 生 。sex 二 0 为 女生 ,sex 一 1 为 男生 。 
详 见 表 16. 1 的 编码 和 程序 16. 1。 


1. 变量 
见 表 16. 1。 
表 16.1 变量 定义 
w Age Location S Sex Height 
恋爱 年 龄 地 区 各 科 平 均 分 性 别 身高 
0: 未 恋爱 ὃς 0; 农村 M 0: 女 ——" 
1, 已 恋爱 单位 : 岁 1: 城市 单位 : 分 1: 男 单位 : 厘米 


2. 数据 定义 


见 程 序 16. 1。 
程序 16. 1: SAS 的 数据 定义 。 


DATA bz96 98; 
INEUT age location vf vm sl s2 height 
weight likel like2 like3 v sex will ; 
Scorer s1/s2* 100; 


CARDS; /* 下 面 是 19 行 数据 * / 


20 1 4 2582 750 168 
19 14450 750 160 
νο 02 2361 750 175 
21 141561 750 170 
21 1 4 1558 900 158 
2 0 1 2 465 750 168 
19 1 5 5549 750 0 
22 1 1 1382 750 156 
2t 022595 750 166 
20 1 3 4490 750 158 
20 0 1 1409 65ο 178 
2 1 6 6436 750 164 
20 1 3 3421 750 168 
20 0 1 6615 900 165 
22 1 4 4450 750 170 
21 1440 0 0 
23 14148 750 168 
20 11147 750 170 
18 0410 0 160 
là 

RUN; 

首先 应 在 图 16. 


ΕΙ DATA BZ96 98; 
INPUT AGE 


106 


LOCATION VF 


WEIGHT LIKE1 LIKE2 
SCORE-51/52*100; 


CARDS; 


/* 前 面 多 行 数据 略 */ 
2 


2 


582 
502 
361 
561 
558 
465 
539 
382 
595 
490 
409. 
436 
421 
615 
aso 
ο 

482 
475 
o 


ο Όσο 9 Ν 


NUWUN 


N e 


N 


- ω - ο 


用 Logsucis 42 “κ 15 4 Er xe o ya 
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5ο 5ω-ον»»σω 5 


ο 5 ο 


Oo0o-o0o0-00000--0.—0ms^-^0 
Ο9ΟΟΟΟΓΟΓΟΙΓΞΟΟΟΟΟΟὔΟΟ 


ΟΕΗΟΕΗΕΗΟΗΕΗΜΕΟΕΗΟΟΓΗΟΗΠ 9 Η 
Ώ9οσωσωοὀσ-Ὢ ο ο Ω σ ᾱ α σ σ 


vH si 
LIKES 


52 
V SEX WILL ; 


HEIGHT 


θσ«οθυσσσοσώώσώσὃσ 
oroooorororoooooooo 


16. 1 


程序 27x- 2- sas + 


[C:\Documents and Settir Ln 6, Col 57 


程序 16. 1 的 数据 编辑 
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163 A 分 析 家 ”对 舌 框 做 Logstic = 13 


1. 选择 分析 家 ”的 操作 步骤 


(1) 选择 图 16.1 主 菜 单 中 的 “运行 ”一 “提交 ”命令 ,产生 SAS 数据 集 Work. 
BZ96 98, 

(2) 选择 SAS 主 菜单 中 的 “解决 方案 "一 “分 析 ” 命 令 , 鼠 标 指针 移 到 图 16. 2 中 带 有 
阴影 标记 的 “分 析 家 ”命令 上 。 


169 117 
165 
158 110 2 


10: 
177 1" 
170 1 


"n 
4 
175 5 4 
1 
2 
178 a 


E DATA B29€ 58; Tiva 
τπριτ AGE LOcATION vro va d FEO 
WEIGHT LIXE: LIKE2  LIXES Pet) 
SCORB=317 "100; sT MBA 
canos; πω LI 
EETA EINCLAD ἐγΡ|{φ SR d Guam T 
z sez 750 198 108 τ ARSD 
mem ap 
ERES: 
REED 
ABD an 
MARAR D 


4 502 750 150 98 2 
3 361750 125 i26 1 
1 561 750 170 112 1 
1 559 900 159 110 1 

465 750 150 120 5 

sae 7500 o 2 
1 sez 750 156 110 2 


oooooo 


o 


(b) SAS 9 的 命令 位 置 
16.2 分 析 家 的 命令 位 置 


(3) 选择 “分 析 家 ”一 “文件 ”一 “ 按 SAS 名 称 打开 ”命令 后 进入 图 16. 3, 并 且 查 找 出 
“逻辑 库 ” 中 的 “Work. Bz96_98” 数 据 集 。 

(4) 选择 “Bz96_98” 后 单 击 “ 确 定 ”( 或 OK) 按 钮 ,显示 Work. Bz96_98 数据 集 的 内 
容 , 见 图 16. 4。 

(5) 选择 “统计 ”一 回归 ”命令 SAS 显示 图 16.5. 

(6) 选择 Logistic 命令 进入 图 16.6 并 设置 变量 。 

说 明 : age 等 连续 变量 必须 放 在 图 16. 6 的 Quantitative μέρη . location 等 标 称 变量 作 
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请 选择 一 个 成 员 。 


Rposmer 


(S) Sashelp 
(S) Sasuser 
Work 


RR QD: [5-96 98 


成 员 类 型 D: | 数据 表 DATA) E 


国 输 出 - τ... | E]Hi& - τ... | 图 程序 27x.2.... | D EFRA 


IC: \Documents and | 


16.3 查找 Work. Bz96 98 数据 集 文件 


Y SAS — [Analyst: (new project)] 


38 文件 @) BOO 
窗口 it) A500 


aS New Project 
E) (i Bz96, 98 Ana 


EEV IAV BEV REY 图 形 (@) fc 


Y SAS — [Analyst: (new project)] 


s New Project 


描述 性 统计 加) 
R WD.. 
RRE 00 


EH Bz96_98 Analysis 
[f Bz96_98 


jp 


方差 分 析 过 ) 


多 元 分 析 α) 
生存 分 析 QD 
样本 大 小 8) 
39510)... 


HAT logistic 回归 


C:\Documents and Setting | 


16.5 Regression 的 菜单 位 置 
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rO EEV 工具 CI) 解决 方案 (5) BIG) 98500 
!νΓ----------- πι! Γ κι 8 ο ι: δε 


© Logistic Regression: Bz96 98 


Dependent type 
[851πε|5 trial 
OEvents/Trials 


Model Pri 1: 
Loper (decrd[ak] 
. » 


νὰ 


LOCATION 
SEX 


Statistics | Predictions 
Titles Variables. 


图 16.6 选择 Logistic 回归 的 因 变 量 v( 恋 爱 ) 和 自 变量 age 等 


为 分 类 变量 只 能 放 在 Class 框 内 。 本 例 将 计算 V==1( 事 件 已 经 发 生 ) 的 概率 。 
(7) 单 击 Model 按钮 进入 图 16. 7 中 ,再 单 击 Standard Models 按钮 ,选择 默认 的 主 


文件 时) EEV IAW 解决 方案 人 G) SOW 帮助 00) 


idi | Εκειοειωὶ 
£roee |  Palznoetet 
w a 


Effects in model: 


HEIGHT 


5 Microsoft Word 


16.7 选择 主 效应 (默认 ) 模 型 


(8) 单 击 OK 按钮 产生 图 16.8. 
(9) 再 单 击 图 16. 6 中 的 Model 按钮 ,进入 图 16. 9 并 选择 主 效应 和 部 分 的 二 次 项 效应 。 


(10} 单 击 OK 按钮 产生 图 16. 10. 
2. 对 图 16. 8 和 图 16. 10 的 结果 比较 
图 16. 8 是 模型 只 有 主 效应 时 的 输出 结果 :Pr 盖 Chisq 一 栏 的 显著 性 水 平 都 大 于 o 值 
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E 


Analysis of Maximum Litelihood Pslingies 


Standaré Wald 
Paraueier DF iwat Chi-Squarz 


intercept 
ACE 


SCORE 
LOCATION G 


1 
1 
HEIGHT 1 
1 
1 
Sex 0 1 


95% M: 
ΠΠ è Conf ider 


AGE 

HECGHT 

SCORE 

LOCATION D vs 1 
E o vs 1 


$4.8 — Somecs! D 
44 Ganma 

Lt Tauca 
29480 ο 


(a) SAS 8e 的 输出 
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Analysis of Waximum Likelihood Estimates 


Standard 
Pareweter DF Est imate Error 
Intercept 1 — 33.538 143.1 
AGE jl ἘΠῚ 8.811} 
HEIGHT 1 2081 0:2921 
SCIRE 1 38 0:3979 
LOCATION 0 1 37 1-1719 
Sex [i 1 6124 —— 71.0287 


Point 852 Wald 
Effect Estimate Conf idence Limits 
AGE 3.01 <0.001 999.886. 
HEIGHT 1.228 1:683 2.178 

1.298 1.594 2.826 


LOCATION 0 vs 1 0.673 ΤΩ 52.180 
SEX ΠΡ «9:001 «0100! — 999.895 


Percent Dorcordent £3.8 Sowers’ D 0.750 
Percent. Discordent 81 Gamma 0:818 
Percent Tied ŝi Tewa 0:300 


ls ire c 0:976 | 


(b) SAS 9 的 输出 
图 16.8 主 效应 模型 的 主要 输出 部 分 


0.05 ,说明 截 距 项 和 age 等 自 变量 的 回归 系数 都 不 显著 。 


而 且 . 图 16. 10 中 增加 了 部 分 二 次 项 效应 之 后 ,Pr 二 Chisq 一 栏 的 显著 性 水 平 (除了 
SEX 变量 和 截 距 外 ) 仍 然 大 于 a 值 0. 05. 表 明 其 他 回归 系数 仍然 不 显著 。 请 读者 增加 
200 个 数据 然后 重新 运行 程序 16. 1 再 做 一 遍 Logistic 回归 ,观察 图 16. 10 中 sex 变量 的 
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= Logistic Regression: Nodel 


Effects in model: 


AGE 
HEIGHT 
LOCATION 
SCORE 


SCORE 
LOCATION 
SEX SEX 

AGEWHE IGHT 

AGEWLOCATION 

AGE#SCORE 

LAGE&SEX. 

Busco ODo not include an intercept. 


国 输 出 -.… | E gs -.… | Aer... | 国 Analysis [[& Logis... 
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图 16.9 主 效应 和 部 分 的 二 次 项 效应 


回归 系数 的 Pr 二 Chisq 值 ,若是 小 于 a 值 0.05, 则 由 原来 的 不 显著 变 为 显著 的 了 。 如 果 
从 图 16. 10 中 能 看 到 性 别 与 年 龄 之 间 具 有 交互 效应 、 性 别 与 地 区 之 间 基 本 上 也 存在 交互 
效应 ,就 说 明 恋 爱 发 生 与 否 ,还 取决 于 性 别 与 年 龄 之 间 的 关系 。 

注意 : 图 16. 8 结果 类 似 于 后 面 的 图 16. 16, 其 结果 分 析 很 重要 .所 以 在 16. 5 节 中 单独 
加 以 详细 介绍 ,如果 想 先 了 解 结果 分 析 , 则 跳 过 16. 4 节 而 直接 阅读 16. 5 节 的 结果 分 析 。 


Analysis of Maximum Litelibood astinatez 


Standard vald 
Parameter DR Error  Chi-Square Pr > ChiSq 
Intercept 1 9. 0270 
1 1. 5396 
T 1 0. 0335 
LOCATION ῃ 1 0. 0725 
SCORE 1 0. 1095 
Sax G 1 f. 0042 
AGReSRX v 1 b. 0055 
HBLOHTHLOCATLON f 1 0.0770 
ΗΒΓΟΗΤΕΞΕΣ ῃ 1 D, 1511 
LDCATIONeSEX ΒΦ 1 0. 0562 
Odds Ratic Bslimales 
Point 9:5 Wild 
affect Estimate Confidencs Limits 
score 1.010 0. 994 1.028 
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(a) SAS ge 的 给 出 


16.10 ” 主 效 应 和 部 分 二 次 项 效应 的 输出 结果 


a s 用 LogsuciX 42 fk 55 54 Ἡπ τ xe oya 341 


E^ xc) Gag) WOO WWW rE 
E — — — —z[|35w*mieu σα E 


υπ σε στα hod Et water E 


ander Ysid 
Error Chi-Smare Pr > Chisa 


Perematar DF Fst 
Interceot 0.8967 
08523 
"EIGHT 09907 
LOCATION o De 
LORE 0.9972 
0 0.3694 
HEIGHT η 
ACERLOCATIO — 0 pen 
ASE ΕΠΗ 
acer o 0:850 
HETGHTSLODATTON ἢ Ded 
ICHTASDORE De 
HETGHTRSEK o 0:9845 
SCOREILOCATION ἢ 0:8875 
LOCATIOWGEX 00 0:9903 
EM [] D 


ἘΠῚ 
237 Monday, 12， 


i ssi 


The LOGISTIC Pese. 
Tha validity of the model fit is quest ionsble- 


Associalicn of Predicted Probabi lites and fbusrvad Responses 
Percent Concordent 100.0 Somers’ Ὁ 1.000 
Percent Bracordent VUO — tame 10) 
Percent Tied. 0.0 Taura 9.414. 
Paire 1 ος 1:000 M 
a! ————nm——n E- 
(b) SAS 9 的 输出 
图 16.10 (46) 
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本 节 用 PROC Logistic 编程 法 进行 逻辑 斯 带 克 回归 ,. 即 由 PROC Logistic 过 程 对 恋 
爱 (变量 V==0 RERA., V=1 已 恋爱 ) 与 年 龄 (age)、 地 区 (Location) .学 习 成 绩 (Score) ,性 
别 (sex) 以 及 身高 (height) 等 5 个 变量 的 迎 辑 斯 蒂 克 回归 。 


1. PROC Logistic 过 程 所 配备 的 语句 


PROC Logistic 过 程 的 语句 极其 简单 . 即 


PROC LOGISTIC ; 
MDDET v= age Location Score sex height; 
RUN; 


将 上 述 3 条 语句 加 入 到 程序 16. 1 的 最 后 .整个 程序 则 成 了 可 以 执行 的 程序 , 见 
程序 16. 2 。 
程序 16.2: 一 个 可 执行 的 简单 程序 (BZ96_98. dat) 。 


DATA BZ96 98; 
INEUT age location vf vm sl s2 HEIGHT 
WEIGHT LIKEl LIKE2 LIKE3 V sex WILL ; 
SCORE- 51/52. 100; 
CARDS; 
/* 下 面 是 19 行 数据 * / 


20 14 2 582 750 168 108 24601 4 


342 4. MdB 5 ή 


19 14 4 50? 750 160 98 239 0.5 
21 02 236: 750 175 126 154015 
21 14 156 750 170 112 145014 
21 14 1 558 900 158 110 123007 
20.01 2 465 750 168 128 500016 
19 15 5 59 750 0 0 2170032 
22 1 1 1 382 750 156 110 237007 
2 02 2 595 750 166 112 240115 
20 1 3 4 490 750 158 98 300001 
20 01 1 409 650 178 140 346117 
20 16 6 436 750 164 128 246015 
20 13 341 750 168 84 126117 
20.01 6 65 900 166 106 247005 
22 14 4 450 750 170 160 270011 
21 14 4 0 0 0 0 000017 
23 14 1 48 750 168 106 127005 
20 11 1 45 750 170 120 346110 
18 04 10 0 160 106 700001 


PROC LOGISTIC; 
MODEL v- age Location Score sex height; 
RUN; 


首先 在 图 16. 11 的 程序 编辑 器 中 编辑 程序 16.2. 


文件 (E) WRO 查看 (W 工具 (D 运行 (8) 解决 方案 (3) 窗口 ( 帮助 由 = 可 | x 


ΞΖ J| Dsm an sten] 


ΕΙΡΑΤΑ BZ96_98; 9 
INPUT age location vf vm si s2 HEIGHT 
WEIGHT LIKE1 LIKE2 LIKE3 V sex WILL ; 
SCORE-51/32*100; 


CARDS; 
7* 前 面 多 行 数据 略 */ 
20 0 1 1 409 650 178 1403 4 6 1 1 7 
20 1 6 6 436 750 164 1282 4 6 O 1 5 
20 1 3 3 421 750 168 84 1 2 6 ν 1 T 
20 0 1 6 615 900 165 106 2 4 ΠΡ ο o 5 
22 1 4 4 450750170 16002 7 0 ο 1 1 
οὐ 1 "αὐ... Ἢ 
23 1 4 1 482 750168 10061 2 7 0 0 5 
20 1 1 1 475 750 170 120 3 Li 6 1 1 o 
18 0 4 1 ο ο 160 106 7 o o o ο 1 
E PROC LOGISTIC; 
MODEL v-age Location Score sex height; 
RUN; | 
Ἐς m ———ÀOM Y [4 


16.11 编辑 程序 16.2 


接着 按 F8 键 ( 或 从 图 16.12 中 选择 “运行 ”一 提交 ”命令 ) 产 生 数据 集 Work. Bz96_ 
98 并 产生 图 16. 13 所 示 的 输出 结果 。 
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T sas — [程序 27x- 2. sas] 
ALO RED SEV IAW 


重新 调用 上 一 次 提交 QD 
提交 第 一 行 If) 
提交 行 中 


EROU 
远程 提交 QD 
远程 获取 @) 
远程 显示 四 ) 
注销 至) 


局 CDocmments and Setti Ln 23, Col 59 


图 16.12 编辑 运行 程序 16.2 


2. 输出 结果 


输出 结果 如 图 16. 13 一 图 16. 18 所 示 。 

国 文件 @) REO EV IAV 解决 方案 G) SOW 48500 - 
Sx 
~ A ο 


18:17 Monday, Januar: 


The LOGISTIC Procedure 
Model Information 


Data Set WORK.BZ96. 98 
Response Variable Y 

Number of Response Levels 1 

Number of Observat ions 16 
Mo: binary, logit 
Optimization Technique Fisher's scoring 


Response Prof ile 


Ordered Total 
Value v Frequency 

1 0 12 

. 1 4 


16.13 模型 中 观察 值 分 布 情况 


Total 
Frequency 


12 
4 


Probability modeled is V-0. 


NOTE: 3 observations were deleted due to missing values for the response or explanatory variables. 


Model Converzence Status 
Quasi-complete separation of data points detected. 
WARNING: The maximum likelihood estimate may not exist. 


WARNING: The LOGISTIC procedure continues in spite of the above warning. Results shown are based on the 
maximum likelihood iteration. Validity of the model fit is questionable. 


E] m 


国 输 出 - (无 标题 ) — 园 程序 27x. 2. sas 


ÆC: Documents and Settings| 


变量 V 的 编码 方法 及 频数 分 布 
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T sas — [πᾶ - (无 标题 ) 1 


AXO RED SEV IA 解决 方案 E) SOW RD - 
Sx 


Ίν A e 
a 


Model Fit Statistics 
m 


Intercept 
Criterion Only Covariates 


20.002 
24.637 
8.002 
Testing Global Null Hypothesis: BETA=0 
Test Chi-Square DF Pr > ChiSa 
Likel ihood Ratio 3.9928 
Se 
Wald 
Es] 


To sas — [Ab - “无 标题 ) 1 


ΕΏπίεα) 编辑 EE) SEV IAV 解决 方案 GE) SOW [70:7 
Bx 


|. --πιἰτ! Δ! a| 


a 


Analysis of Maximum Likelihood Estimates 


Standard Wald - 
Parameter Est imate Error — Chi-Sauare 


Intercept νο) 
LOCATION 
SCORE 


« 


[δὴ - 无 标 题 ) EFT. 2. sas 
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16.16 最 大 似 然 度 的 估计 值 


A 标题 πε] 
Y SAS 一 CIN f F) 
国 文件 @) 编辑 E) SEV IAD 解决 方案 E) DR as CAEN 
Έα) WHW -ax 
μες Ex 
Odds Ratio Estimates - 
5 E The LOGISTIC Procedure 
Point 95% Wald the model fit is questionable. 
Effect Estimate Conf idence Limits =| 
Association of Predicted Probabilities and Observed Responses 
人 ro 
el E ἢ Pe it Concordant . S "p 
SCORE 0.771 0.354 1.682 Percent Discordent ας 
K <0.001 «0.001 >999.999 Percent Tied 
HEIGHT 0:814 0.453 1.442 gw Pairs 
a "= a e 
国 和 输出 - 〈 无 标题 ) ”图 程序 27x. 2. sas 4| *| 
IC: \Docu | A [C:\Documents a| 


16.17 优势 率 的 估计 值 图 16.18 预测 的 概率 与 实际 概率 的 关联 度 


as 用 LogsuciX 42 “4:5 38 Ἡπ xe o ν8 345 


这 些 图 形 的 分 析 见 16. 5 节 。 
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1. 回归 系数 的 假设 检验 


CD 对 于 规模 较 大 的 样本 (如 300 个 OBS 或 更 多 OBS) ,可 利用 Wald 统计 量 检验 一 

个 回归 系数 是 否 为 0。 
Wald= (B/(S. E))? 

(2) 回归 系数 的 假设 。 

Ho ( 原 假设 ): 回归 系数 全 部 为 0; 

Hi( 备 择 假设 ): 回归 系数 不 是 全 部 为 0。 

G) 回归 系数 的 检验 。 

如 图 16. 16 所 示 , 以 截 距 项 为 例 , 回 归 系 数 B= — 25. 6076, 它 的 标准 误差 S. E = 
184.7。 因 此 : 


Wald 一 (一 25. 6076 2-184. 7)? —0. 0192 (16. 7) 

Wald 的 显著 性 水 平 见 Pr>ChiSq A 24 F S PEKE Sig)。 在 这 个 例子 中 ,所 有 变 

量 的 Wald 的 显著 性 水 平 都 大 于 a 值 0.05, 所 以 没有 足够 的 理由 拒绝 “回归 系数 为 0” 的 
原 假设 。 说 明 各 个 变量 的 回归 系数 不 显著 ,严格 说 来 模型 从 佳 。 


2. 为 何不 能 拒绝 原 假设 


当 回 归 系 数 的 绝对 值 变 大 时 ,其 标准 误差 必然 太 大 ,因此 使 得 Wald 值 变 得 过 于 小 ， 
以 致 于 不 能 拒绝 “系数 为 0” 的 原 假 设 。 因 此 ,无论 什么 时 候 , 一 旦 回归 系数 变 大 , 则 不 能 
依靠 Wald 值 来 检验 假设 ,而 应 该 根据 图 16. 15 中 的 一 2 log L(L 是 Likelihood 的 简写 ) 
值 的 变化 来 检验 假设 。 图 16.8 和 图 16. 16 中 的 回归 系数 尚未 变 大 。 


3. 偏 相 关系 数 R 


与 其 他 多 元 回归 一 样 .在 Logistic 回归 中 ,对 于 一 个 单独 的 变量 .很 难 判 断 它 对 模型 
的 贡献 。 因 为 每 个 变量 对 模型 的 贡献 率 , 还 要 依赖 于 模型 中 的 其 他 变量 。 特 别 是 在 自 变 
量 之 间 有 高 度 相 关 的 情形 下 ,更 难 计算 出 单个 变量 的 贡献 率 。 

因此 ,可 以 用 统计 量 R, 来 衡量 每 一 个 自 变 量 对 于 因 变 量 之 间 的 偏 相 关系 数 。 

R 的 范围 在 (一 1) 一 (十 1) 之 间 。 当 κο 时 .表示 变量 对 模型 的 贡献 率 。 但 R 越 小 ， 
该 变量 对 模型 的 贡献 也 就 越 小 。 

R—[CWald 值 一 2K)/( 一 2 log L) 13 (16. 8) 

式 (16.8) 中 ,K 是 变量 的 自由 度 : 一 2 log L Æ log likehihood 的 缩写 ,而 且 一 2 log L 
值 等 于 上 一 个 模型 的 “log L 值 ? 减 去 当前 模型 (包括 截 距 十 协 变量 ) 的 ” log LEWA., 

式 (16. 8) 中 的 “2K”, 是 一 个 修正 值 , 当 Wald 小 于 或 等 于 2 时 ,R= 二 0。 但 在 本 例 的 
输出 结果 中 未 显示 R 值 。 
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166 解释 回归 系数 


在 多 元 Logistic 回归 中 ,对 回归 系数 的 解释 很 简单 , 它 表示 由 于 自 变 量 的 变化 而 引 
起 因 变 量变 化 了 多 少 。 


1. 用 Log 值 解释 Odds 值 (优势 值 ) 


Odds 值 ( 优 势 值 ) 表 示 事 件 发 生 的 优势 值 。 为 了 便于 进一步 解释 Logistic 回归 系数 ， 
下 面 改 用 Odds 值 取 对 数值 来 改写 模型 。 所 谓 事件 发 生 的 Odds 对 数值 ,等 于 事件 发 生 的 
概率 除 以 事件 未 发 生 的 概率 ,再 对 “ 商 ” 求 对 数 , 即 
(Odds) —log[ Prob(event) 二 Prob(no event) | 
二 Bo 十 BiXi 十 BoX: 十 … 十 BpXp (16. 9) 
式 (16. 9) 中 的 Logistic 系数 可 解释 为 : 自 变量 的 变化 引起 了 log 值 的 变化 。 如 
图 16. 16 所 示 , Location 变量 的 系数 为 一 0. 5474, 它 表明 地 区 变量 从 0 变 到 1 时 ,变量 V 
(恋爱 ) 的 log 值 增 长 了 “一 0. 5474”。 但 是 这 种 比较 还 不 太 直 观 , 需 要 进一步 用 “概率 比 ” 
解释 回归 模型 。 


2. 用 “概率 比 ” 解 释 回 归 模 型 


为 了 便于 进一步 解释 Logistic 回归 系数 ,还 可 将 式 (16. 9) 改 写 为 事件 发 生 与 未 发 生 
的 比例 关系 : 


Prob(event)/ Prob(no event) 一 e Pe*EiXi FB; Xie BoXp 


BoXo κ... 


* eXp (16. 10) 
式 (16.10) 中 ,e 表明 当 第 i 个 自 变量 值 从 0 变化 到 1 时 ,Odds 值 变化 了 ο’ fir. 

如 图 16. 16 所 示 : 对 于 Location( 地 区 ) 二 分 变量 , 当 变 量 水 平 值 从 低 5( 例 如 0 一 农村 ) 
变 到 高 (例如 1 王城 市) 时 ,恋爱 发 生 的 概率 反而 递减 (系数 为 一 0.5474) 。 


= eo κ eX χο 
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在 回归 模型 拟 合 数据 的 前 提 下 .根据 式 (16.4) 和 图 16. 16 中 的 回归 系数 ,可 以 挖掘 
出 如 下 恋爱 发 生 的 概率 模型 ; 
Z =B, + B: Xi + B:X: 十 … + BpXp 
一 一 25. 6076 + 4. 55 * age — 0. 5474 * location — 15. 0249 * sex 
— 0. 2061 * height — 0. 2596 * score c16. 115 
例 1: 计算 22 岁 农村 男生 身高 170cm、 各 科 平 均 成 绩 80 分 的 恋爱 概率 。 
解 : 
Ζ---- 25.6076 + 4. 55 κ age — 0. 5474 * location — 15. 0249 κ sex 
— 0. 2061 * height — 0. 2596 * score 
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—— 25.6076 4- 4. 55 * 22 —0. 5474 * 0O— 15.0249 * 1 
— 0. 2061 * 170 — 0. 2596 * 80 
25.6076 100. 1 — 0 — 15. 0249 — 35. 037 — 207. 68 

二 一 157.6419 
把 Z= —157. 6419 代入 式 (16.4) 得 : 
该 生 恋 爱 概率 二 Prob(event) 二 1 二 (1 十 e*) 二 1 二 (1 十 e57 54? 32z20 
当 Prob(event) 三 0.5 时 ,事件 将 发 生 ; 当 Prob(Cevent) 一 0. 5 时 ,事件 不 发 生 。 所 以 

该 生 可 能 未 恋爱 。 

例 2. 计算 22 岁 城市 男生 、 身 高 170cm、 各 科 平 均 成 绩 80 分 的 恋爱 概率 。 
ΠΕ. 


Z =— 25. 6076 + 4. 55 * age — 0. 5474 * location — 15. 0249 * sex 
— 0. 2061 * height — 0. 2596 * score 
—— 25.6076 + 4.55 * 22 — 0. 5474 * 1 — 15.0249 * 1 
— 0. 2061 * 170 — 0. 2596 * 80 
—— 25. 6076 + 100. 1 — 0. 5474 15. 0249 — 35. 037 — 207. 68 
—— 183. 7969 
把 Z= —183. 7969 & AX C16. 4) 得 : 
该 生 恋爱 概率 二 Prob(evenO = 1 二 (1 十 e-?) 一 1 二 (1 十 el8 799 )220 
当 Prob(Cevent) 三 0.5 时 ,事件 将 发 生 ; 当 Problevent) <0. 5 时 ,事件 不 发 生 。 所 以 
该 生 可 能 未 恋爱 。 
思考 题 : 请 计算 18 岁 农 村 男生 .身高 170cm、 各 科 平 均 成 绩 80 分 的 恋爱 概率 。 


168 好 分 交 量 的 编码 


所 谓 二 分 变量 ,是 将 因 变 量 的 值 编码 成 1( 男 ) 和 0( 女 ) 两 种 值 .在 许多 场合 ,是 用 “1” 
表示 事件 已 发 生 , 用 “0” 表 示 事 件 尚未 发 生 。 例 如 .在 医学 上 用 “1” 表 示 淋 巴结 癌 已 扩散 ， 
用 0” 表示 淋巴 结 瘤 尚 未 扩散 ;或 用 "1 表示 妊娠 实验 为 阳性 反应 ,用 "0 表示 妊娠 试验 呈 
阴性 反应 等 。 

但 在 某 些 场合 . 因 变 量 有 3 种 值 以 上 . 即 多 分 变量 (CCategorical Variable) ,这 时 要 把 
因 变 量 处 理 为 哑 变 量 (Dummy) 或 指示 变量 (Indicator) 。 请 看 下 面 两 种 编码 设计 。 


1. 指示 变量 (Indicator-Variable) 的 编码 方案 


有 个 数值 的 标 称 变量 重新 变换 成 (x 一 1) 个 新 变量 时 , 则 (n 一 1) 个 新 变量 就 成 为 指 
示 变 量 。 例 如 ,在 淋巴 结 癌 细 胞 扩散 试验 中 , 当 进 行 血清 硫酸 盐 化 学 实验 时 ,出 现 3 种 化 
验 值 , 即 acid 二 1( 低 值 ) ,acid 二 2( 中 值 ) :acid 一 3( 高 值 ) 。 

但 因 Logistic 回归 有 条 件 限制 , 当 某 变量 的 值 多 于 2 个 时 ,就 必须 将 它 变 为 n 一 1 个 
指示 变量 。 因 此 对 acid 变量 的 这 3 个 值 ,必须 改编 为 指示 变量 CA Tacidl, CA Tacid2 等 。 

当 新 变量 CA Tacid1l— 1 时 是 低 值 .CATacidl 一 0 时 不 是 低 值 ; 当 新 变量 CA Tacid2 = 
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1 时 是 中 值 ,.CATacid2 王 0 时 不 是 中 值 。 

原始 变量 ACID 的 高 值 ,虽然 没有 专门 建立 新 变量 ,但 由 CATacidl 和 CATacid2 这 
两 个 新 变量 同时 为 0 编码 时 表示 “化 验 值 ” 为 高 值 ,因为 既 不 是 中 值 又 不 是 低 值 ,必然 是 
高 值 , 即 当 新 变量 CATacid1 王 0, 同 时 新 变量 CA Tacid2 —0 时 , 则 隐 含 acid 一 3( 高 值 ), 见 
图 16. 19(a) 。 


Value CATacid 
a) (2) 
低 值 1. 000 0. 000 
中 值 0. 000 1. 000 
高 值 0. 000 0. 000 


Ca) 对 旧 变 量 的 改编 


Value Freq Parameter coding 
(D (2) 
CATacid 
1.00 25 1. 000 0. 000 


2.00 26 0. 000 1. 000 
3.00 18 —1.000 —1. 000 


(b) 对 旧 变 量 的 另 一 种 编码 方案 
图 16.19 多 分 变量 的 编码 


2. 另 一 个 编码 方案 


图 16. 19(a) 是 用 指示 变量 CA Tacidl f] 1" 3878 IH 2E fit acid 的 低 值 ,用 CATacid2 的 
“1” 代 表 旧 变量 acid 的 中 值 , 当 这 2 个 指示 变量 的 代码 同时 为 “0” 时 表示 旧 变 量 acid 的 
高 值 。 

下 面 改 用 另 一 种 编码 方案 ,其 思路 是 将 血清 反应 的 旧 变 量 acid 的 每 一 个 值 的 系数 ， 
与 总 平均 系数 作 比 较 , 其 编码 方案 见 图 16. 19(b)。 

如 图 16. 19685) 所 示 , 旧 变量 (Cacid) 原来 的 高 值 ( 代 码 3. 00), 现 在 被 重新 编码 为 
一 1.000 和 一 1. 000 两 个 值 ,而 不 是 0.000 和 0. 000。 也 就 是 说 ,此 时 是 将 这 2 个 指示 变量 
CATacidl 和 CATacid2 中 的 “一 1 代码 作为 旧 变 量 acid 的 高 值 。 

用 图 16. 19(b) 的 编码 方案 后 ,指示 变量 的 某 一 个 数值 所 对 应 的 结果 ,将 与 总 平均 结 
果 进 行 比较 。 


5 是 16 
1. 多 个 自 变 量 的 Logistic Regression 模型 是 什么 ? 


2. 二 分 的 Logistic Regression 回归 对 因 变 量 和 自 变 量 各 有 什么 要 求 ? 
3. Logistic Regression 输出 的 回归 系数 和 截 距 是 什么 值 ? 
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4. 下 面 是 Logistic Regression 回归 的 常识 问题 。 

(1) 预测 一 个 事件 是 否 已 经 发 生 , 以 及 判别 “一 个 因 变 量 对 于 这 种 预测 ”的 结果 如 何 
等 ,为 什么 要 用 Logistic 回归 法 ? 

(2) 对 于 规模 较 大 的 样本 .可 利用 什么 统计 量 检验 一 个 回归 系数 是 否 为 0? 

(3) 当 回 归 系 数 的 绝对 值 变 大 时 .为 什么 不 能 拒绝 “系数 为 0” 的 原 假设 ? 

(4) 当 回 归 系 数 的 绝对 值 变 大 时 怎么 办 ? 

(5) 如何 才能 更 直接 地 解释 回归 系数 ? 

5. 试 举 出 一 个 用 PROC Logistic 编程 法 做 Logistic 回归 的 例子 。 

提示 : 参阅 第 16 章 16. 4 节 的 程序 16. 2。 


第 17 86 she er | 7... 


2 * 2 4 Logistic Regression 回归 分 析 


第 16 章 是 探讨 因 变 量 只 有 二 水 平 (0 为 事件 不 发 生 、1 为 事件 已 发 生 )、 自 变量 为 区 
间 ( 定 距 ) 以 上 类 型 的 Logistic Regression 回归 分 析 。 但 是 , 当 因 变量 只 有 两 个 水 平 (0 为 
事件 不 发 生 、1 为 事件 已 发 生 ) ,而 自 变量 也 限制 为 两 个 水 平 ( 例 如 : 0 为 疾病 不 知道 或 未 
暴露 ,1 为 疾病 已 知道 或 已 暴露 ) 时 , 则 成 为 2X2 维 变量 , 即 2* 2 维 变量 。 例 如 医学 上 ， 
因 变 量 为 某 种 疾病 (0 为 不 发 生 、1 为 发 生 ), 自 变量 为 吸烟 状况 (0 为 不 吸烟 、1 为 吸烟 ) 时 
是 以 成 对 的 形式 出 现 的 。 

又 例如 ,社会 上 青少年 犯罪 与 父母 是 否 离 异 , 二 者 之 间 也 是 以 成 对 的 数据 出 现 的 。 

类 似 这 样 的 数据 被 称 为 “比较 研究 ”数据 ,这 类 数据 可 以 用 Logistic Regression 过 程 
加 以 分 析 , 也 就 是 常 说 的 2 * 2 维 ( 或 方 表 )Logistic Regression 回归 分 析 。 


17.1 2* 2£& Logistic Regression 模型 


2 * 2 HE Logistic Regression 模型 .和 第 16 章 通用 的 Logistic Regression 回归 模型 

完全 一 样 , 见 式 (17. 1) 
Prob(event) = 1/[ 1 十 er'Bo+Bixxa) ] (17.1 } 

式 (17. DP: 

Bo: 回归 截 距 。 

Bis 从 数据 中 计算 出 的 回归 系数 。 

X: 自 变 量 。 

e: 自然 对 数 的 底 ,es*2. 178. 


172 2* 2% Logistic Regression 的 变量 及 其 数据 


1. 变量 和 数据 : 见 表 17. 1. 
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R17.11 变量 定义 


犯罪 情况 看 录像 (编码 1) 不 看 录像 (编码 0) 
犯罪 (编码 1) 5 15 
不 犯罪 (编码 0) 50 40 


2. 在 程序 编辑 器 窗口 输入 数据 : 见 程序 17. 1 。 

程序 17. 1: 

DATA lux; 

INEUT fz lx freq; 

CARDS; 

1125 

1015 

0150 

0 0 40 

请 上 机 运行 程序 17. 1, 然 后 将 输出 结果 与 17. 3 节 的 对 话 框 中 所 产生 的 结果 进行 
对 比 。 

下 面 17. 3 节 是 改 用 选择 对 话 框 的 命令 来 运行 程序 17. 1 中 的 数据 。 


173 用 DIR” 对话 框 开行 2 * 258 Logsücrm Js 


1.“ 分 析 家 ”对 话 框 的 操作 步骤 


CD 选择 图 17. 1 的 SAS 主 菜单 中 的 “运行 * 一 “提交” 命令 运行 程序 17.1 及 其 数据 ， 
产生 SAS 数据 集 Work. lux。 
(2) 选择 图 17. 1 所 示 的 “解决 方案 ”一 分析” 命令 ,鼠标 指针 移 到 图 17. 1 中 带 有 阴 


T. SAS — [程序 28- 1- SAS] 


开发 和 编程 D0) » 

EDATA lux; deg JUNE 
INPUT fz 1x freq; 附件 ao ΔΑΝΕΙΑ) 
CARDS; ASSIST T) 地 理 信息 系统 W 
1125 Ens 向 导 式 数据 分 析 (6) 
1015 EIS/OLAP 应 用 程序 生成 器 E) 交互 式 数据 分 析 D 
o 3 s0 Å— swo 
θα 市 场 研究 QD 
TESEO 

d 质量 改善 @) 
排队 模拟 QD 
时 间 序 列 预测 系统 E 
时 间 序 列 查看 器 CDD 


国 输 出 - (无 …| Oas- (无 …| Aero ... |[ 园 程序 28- 1. sas 


|c:\Documnents and Settings\Rainer 


17.1 分 析 家 的 菜单 位 置 
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影 标记 的 “分 析 家 ”命令 上 
(3) 单 击 图 17.1 «ig 分 析 家 ”一 “文件 ”一 “ 按 SAS 名 称 打开 ?一 Work 一 lux 命令 按 
钮 ,进入 图 17. 2 所 示 的 对 话 框 。 


πα Ἔξω IAW 解决 方案 G) SHOW MHW 


l-| —— lo NM é& ui: fia 


ΠΕΡΣΗ 
(S) Rposner 
(S) Sashelp 
(S) Sasuser 
(S York 


国 输出 -.… | Oas -.… | 图 程序 29... | 图 程序 28... [Ey 选择 成 员 


[ES C: Mocunents and Setting | 


17.2 Work. lux 数据 集 文件 
(4) 选择 文件 名 lux 后 单 击 “确定 ”按钮 ,出 现 图 17.3 所 示 的 Work. lux 数据 集 数 据 。 


Y. SAS — [Analyst: (new project)] 

A πα) REO Ἔξω IAV REV REV PEO ΑΥΓ) SOW MHW -|8| x 
jv 和 ml 
如 New Project 
E B Lux Analysis 


4l 


17.3 Work. lux 的 文件 内 容 


(5) 选择 “统计 ”一 “回归 ”命令 进入 图 17. 4. 

(6) 选择 Logistic 命令 后 进入 图 17. 5 并 设置 变量 。 

说 明 : lx 是 标 称 ( 定 类 ) 型 变量 只 能 放 在 Class 文本 框 内 。 非 标 称 变量 必须 放 在 
图 17. 5 的 Quantitative 框 内 。 

(7) 单 击 图 17. 5 中 的 Model 按钮 ,进入 图 17. 6 后 单 击 Standard Models 按钮 .选择 
默认 的 主 效应 模型 。 


PETS 2* 258 Logistic Rxgressicn 回归 分析 


353 


FO 编辑 区) SEV IRV HEV REV BEO Sow #HwW -85x 


| ~ J| Osm ga sees ，| x mel 
表 分 析 加) 
a|lucíBewsel E Πςς 
ÄH New Project 到 τπτ mv » ᾽ 
z A 
E G Lux Analysis 1 1 DESNO »' 
I 2 1 EE J πες 
^ Lux 
B 2 9 多 元 分 析 0 线性 加) 
< . 生存 分 析 四 
样本 大 小 @) 
索引 CD) 


g ani zi 
国 输 出 - (无 .| 自 日 志 - (无 .. 程序 29.9”... | [δ] 程序 28.1.S4S [37 Analyst:- 
执行 logistic 回归 \Documents and Settings\Rainer | Z 


Æ 17.4 Logistic 过 程 的 菜单 位 置 


Dependent type. 


@Sincle trial | c DERI Pr 
fres A -— αἱ —R- 


obe | Dusrt iat tos | Reset 


Tx Save Options: 
Help 
Pois 
Model Statistics | Predictions Plots 


Save Data Titles | Variables | 


图 17.5 选择 Logistic 的 因 变 量 fz( 犯 罪 ) 和 自 变量 Ilx( 录 像 ) 


© Logistic Regression: Nodel 


Model | Selection | Criteria | Include | 


ἘΠῚ Factor int 
ΕΜΜ 
wT za] 


Effects in model: 
Tx 


DDo not include an intercept 


17.6 ”选择 默认 的 主 效 应 模型 


(8) 单 击 OK 按钮 后 再 单 击 Statistics 标签 ,进入 图 17.7 选择 默认 的 统计 量 。 
(9) 图 17. 7 的 统计 量 可 以 不 选 ( 即 按 默认 的 )。 单 击 OK 按钮 回 到 图 17. 5. 


(10) 单 击 图 17. 
此 项 必 选 


5 下 方 的 Variable 按钮 ,进入 图 17. 8 后 把 变量 Freq 选 为 加 权 变 量 。 
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= Logistic Regression: Statistics 


Dispersion 
Statistics | Intervals | Goodness of Fit ] 


| of parameter estimates 


ElCorrelation matrix of estimates 
ElCovariance matrix of estimates 
Classif ication table. 


OClassif ication table 
Prior probabilities 


Values: 


Probabi lity cutpoints 


© Logistic Regression: Variables 


NE 3| 


图 17.8 把 变量 freq 选 为 “加 权 变 量 ” 


(11) 图 17.5 下 方 的 其 他 对 话 框 选项 可 以 不 选 , 单 击 两 次 OK 按钮 后 产生 图 17. 9 至 
图 17. 13 的 输出 结果 。 


Y SAS — [Analysis] 


国文 件 四 RBO SOW MHW EFIE: 
[Ea J| #7  ὢ Δ! 1 mem ο | pE] 


08:25 Saturday, February a| 
The LOGISTIC Procedure 
Model Information 
Data Set WORK.LUX 
fz 


Response Variable 
Number of Response Levels — 2 


Weight Variable frea 

Sun of Weights 130 

Model binary, logit 
Optimization Technique Fisher's scoring 


Response Profile 


Ordered Total Total 
Value fz Frequency Weisht 

1 1 2 40.000000 

2 0 £ 30.000000 


17.9 ”模型 信息 
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Y sas - [Analysis] 


国文 件 四 编辑 四 SOW HHW 


|» — esma] 


Probability modeled is fzz1. 


Class Level Information 


Design 
Class Value — Variables 


Ix 0 1 
1 -1 


T SAS - [Analysis] 
Model Convergence Status [ET TIN RRD WOW PHW TT 


Convergence criterion (GCONY=1E-8) satisfied. 


IE 


Model Fit Statistics The LOGISTIC Procedure 


intercept Interceot Testine Global Null Hypothesis: BETA=0 
Criterion Oniy Covariates Tesi Ohi os 
AIC 182.483 163.832 k n " 
Likel ihood Rat io 0.5508 1 0.4578 
ΠΗ ΠΗ ore 0.5471 1 0:4535 


-2 Log L 160.483 153.93; 
E pu—— ( m 


17.10 ”模型 拟 合 检验 图 17.11 系数 全 0 的 假设 检验 


Type 3 Analysis of Effects 


Wald 
| Effect DF —Chi-Squere Pr 》chisq 
| Ix 1 0.5457 0.4601 
| Analysis of Maximum Likelihood Est inates 
Standard Wald 

Parameter DF Est imate Error Chi-Square Pr > ChiSq 
| Intercept 1 -9.8870 0.14 18.4758 «.0001 

x R E E 3: 


1 — -011438 1847 0.5457 0:4601 
| | πα 
17.12 最 大 似 然 率 估计 


Y: SAs — [Analysis] 
国 文件 EE SEO SOW HW 


Odds Ratio Est instes 


1 Point. 95X Wald 
| Effect Estimate Conf idence Limits 
' Ix 0 vs 1 0.750 0.350 1.608 


Association of Predicted Probabilities and Observed Responses 


d Percent Concordant 25.0 Somers’ D 0.000 
Percent Discordant 25.0 Gamma. 0.000 B 

Percent Tied 50.0 Ταυ-α 0.000 
Pairs 4 c 0.500 - 
«| | F- 


17.13 dds( 优 势 率 ) 估 计 
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2. 输出 结果 分 析 : 见 17.4 节 


174 2x2 维 Logistic = 1a 4 4 


1. 模型 拟 合 度 
从 图 17. 10 的 一 2 log L WEA: 模型 不 拟 合 数据 。 
2. 回归 系数 为 0 的 假设 检验 


从 图 17. 11 和 图 17. 12 看 : 变量 Lx 的 “Pr 二 ChiSq” 值 大 于 a 值 0.05, 所 以 没有 理由 
拒绝 “系数 为 0 的 假设 ”。 


3. 回归 模型 


为 了 能 继续 向 下 进行 讲解 , 特 假定 系数 不 为 0, 于 是 ,从 图 17. 12 可 获得 Logistic [nl 
归 模 型 如 下 。 


P --1--- 61 十 erco.8370-0.1438xLe) ) 一 1 二 (1 十 e® 8370+0. 1438xLr ) (17.2) 
4. 概率 预测 


根据 图 17. 10 的 编码 可 进行 以 下 的 概率 预测 : 

CD 不 看 录像 的 犯罪 率 为 P1 一 1 二 (1 十 es+0148x1) 一 1 二 (1 十 es ) 一 1 二 (1 十 
2. 67) 一 0. 27 

(2) 看 录像 的 犯罪 率 为 P2 一 1 二 (1 十 es7+01438x0) 一 1 一 (1 十 es) 一 1 二 (1 十 2.31) 一 0. 30 

ΕΝ 0. 27 与 0. 30 这 两 种 比例 失调 显然 不 能 令 人 满意 ,其 原因 之 一 是 数据 本 身 缺 乏 
随机 性 ,但 是 所 讲授 的 回归 方法 不 失 一 般 意 义 。 
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1. 什么 是 2 * 2 维 Logistic Regression 模型 ? 
2. X 17. 2 是 某 单 位 200 名 职工 中 20 年 间 抽 烟 与 否 和 心脏 病 的 关系 数据 ,请 建立 
2 * 27 Logistic Regression 模型 .并且 计 算 Odds 率 。 


表 17.2 抽烟 与 否 和 心脏 病 的 关系 数据 


抽烟 (编码 chy Ξ- 1) 不 抽烟 (编码 chy 一 0) 
有 心脏 病 
(编码 xzb 一 1) 58. 32A 
无 心脏 病 
(编码 xzb 一 0) 18 A. 32A: 
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提示 : 2 * 2 48 Logistic Regression 模型 见 程序 17. 2. 
程序 17.2; 


DATA Χ7Β0; 

INFUT xzb chy freq 8 8 ; 
CARDS; 

1168 

1032 

0118 

0082 

F 

PROC IOGISTIC DATA- xzb0; 
ΜΌΓΕΙ, xzb- chy; 

WEIGHT freq; 

RUN; 


编码 说 明 : xzb 王 1( 有 心脏 病 ) xzb 一 0( 无 心脏 病 ) 
chy 王 1( 抽 烟 ) chy 王 0( 不 抽烟 ) 


高 等 院 校 信息 技术 规划 教材 
系列 书目 


书 名 
数字 电路 逻辑 设计 
计算 机 网 络 基 础 
微机 接口 与 应 用 
XML 应 用 教程 (第 2 版 ) 
算法 与 数据 结构 
算法 与 数据 结构 习题 精 解 和 实验 指导 
工业 组 态 软 件 实用 技术 


MATLAB 语言 及 其 在 电子 信息 工程 中 的 应 用 


微型 计算 机 组 装 与 系统 维护 
椒 入 式 系统 设计 原理 及 应 用 
C++ 语言 程序 设计 

计算 机 信息 技术 教程 

计算 机 信息 技术 实验 教程 
Visual Basic 程序 设计 
单片机 C 语言 开发 技术 


ATMEL 新 型 AT89S52 系列 单片机 及 其 应 用 


计算 机 信息 技术 基础 

计算 机 信息 技术 基础 实验 

C 语言 程序 设计 

C 语言 程序 设计 习题 解答 与 实验 指导 
计算 机 组 成 原理 实用 教程 

微机 原理 与 汇编 语言 实用 教程 

微机 组 装 与 维护 用 教程 

计算 机 网 络 技术 及 应 用 

微型 计算 机 原理 与 接口 技术 

基于 MATLAB 的 计算 机 图 形 与 动画 技术 
基于 MATLAB 的 信号 与 系统 实验 指导 
信号 与 系统 学 习 指 导 和 习题 解析 

计算 机 与 网 络 安全 实用 技术 

Visual Basic 程序 设计 学 习 和 实验 指导 
Photoshop 图 像 处 理 实 用 教程 

数据 库 与 SQL Server 2005 教程 


5 号 


978-7-302-12235-7 
978-7-302-12236-4 
978-7-302-12234-0 
978-7-302-14886-9 
978-7-302-11865-7 
978-7-302-14803-6 
978-7-302-11500-7 
978-7-302-10347-9 
978-7-302-09826-3 
978-7-302-09638-2 
978-7-302-09636-8 
978-7-302-09961-1 
978-7-302-12416-0 
978-7-302-13602-6 
978-7-302-13508-1 
978-7-302-09460-8 
978-7-302-10761-3 
978-7-302-13889-1 
978-7-302-11103-0 
978-7-302-11102-3 
978-7-302-13509-8 
978-7-302-13417-6 
978-7-302-13550-0 
978-7-302-14612-4 
978-7-302-14195-2 
978-7-302-14954-5 
978-7-302-15251-4 
978-7-302-15191-3 
978-7-302-15174-6 
978-7-302-15948-3 
978-7-302-15762-5 
978-7-302-15841-7 
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读者 意见 反馈 


亲爱 的 读者 : 

感谢 您 一 直 以 来 对 清华 版 计算 机 教材 的 支持 和 爱护 。 为 了 今后 为 您 提供 更 优秀 的 
教材 ， 请 您 抽出 宝贵 的 时 间 来 填写 下 面 的 意见 反馈 表 ， 以 便 我 们 更 好 地 对 本 教材 做 进 
一 步 改进 。 同 时 如 果 您 在 使 用 本 教材 的 过 程 中 遇 到 了 什么 问题 , 或 者 有 什么 好 的 建议 ， 


也 请 您 来 信 告诉 我 们 。 
地 址 : 北京 市 海淀 区 双 清 路 学 研 大 厦 A 座 602 计算 机 与 信息 分 社 营销 室 收 
邮编 : 100084 电子 邮件 : jsjjc@tup.tsinghua.edu.cn 
电话 : 010-62770175-4608/4409 邮购 电话 : 010-62786544 


教材 名 称 : SAS 数据 挖掘 与 分 析 

ISBN: 978-7-302-16920-8 

个 人 资料 

姓名 : 年 龄 : 所 在 院 校 /专业 : 
文化 程度 : 通信 地 址 : 
联系 电话 : 电子 信箱 : 
您 使 用 本 书 是 作为 : 口 指定 教材 口 选 用 教材 口 辅导 教材 口 自学 教材 
您 对 本 书 封面 设计 的 满意 度 : 

口 很 满意 口 满意 口 一 般 口 不 满意 ”改进 建议 

您 对 本 书 印刷 质量 的 满意 度 : 

口 很 满意 口 满意 口 一 般 口 不 满意 ”改进 建议 

您 对 本 书 的 总 体 满意 度 : 

从 语言 质量 角度 看 口 很 满意 口 满意 口 一 般 口 不 满意 

从 科技 含量 角度 看 口 很 满意 口 满意 口 一 般 口 不 满意 

本 书 最 令 您 满意 的 是 : 
指导 明确 口内 容 充 实 口 讲解 详尽 口 实例 丰富 
您 认为 本 书 在 哪些 地 方 应 进行 修改 ? JMT) 


您 希望 本 书 在 哪些 方面 进行 改进 ? JMT) 


电子 教案 支持 


敬爱 的 教师 : 

为 了 配合 本 课程 的 教学 需要 ， 本 教材 配 有 配套 的 电子 教案 (素材 )， 有 需求 的 教师 可 
以 与 我 们 联系 ， 我 们 将 向 使 用 本 教材 进行 教学 的 教师 免费 赠送 电子 教案 (素材 )， 和 希望 有 
助 于 教学 活动 的 开展 。 相 关 信 息 请 拨打 电话 010-62776969 或 发 送 电子 邮件 至 
jsjjc@tup.tsinghua.edu.cn 咨询 ， 也 可 以 到 清华 大 学 出 版 社 主页 Chttp//www.tup.com.cn 或 
http://www.tup.tsinghua.edu.cn). 上 查询 。 


